Categorize `tests/kernels/` based on kernel type (#16799)

Signed-off-by: mgoin <mgoin64@gmail.com>

Categorize `tests/kernels/` based on kernel type (#16799)
Signed-off-by: mgoin <mgoin64@gmail.com>
6317a517 · Michael Goin · GitHub · aa72d9a4 · 6317a517 · 6317a517
Unverified Commit 6317a517 authored Apr 23, 2025 by Michael Goin Committed by GitHub Apr 23, 2025
20 changed files
--- a/.buildkite/lm-eval-harness/test_lm_eval_correctness.py
+++ b/.buildkite/lm-eval-harness/test_lm_eval_correctness.py
@@ -16,7 +16,7 @@ import numpy
 import pytest
 import yaml
-RTOL = 0.05
+RTOL = 0.08
 TEST_DATA_FILE = os.environ.get(
    "LM_EVAL_TEST_DATA_FILE",
    ".buildkite/lm-eval-harness/configs/Meta-Llama-3-8B-Instruct.yaml")

--- a/.buildkite/test-pipeline.yaml
+++ b/.buildkite/test-pipeline.yaml
@@ -317,15 +317,46 @@ steps:
  commands:
  - pytest -v -s compile/test_full_graph.py
- label: Kernels Test %N # 1h each
+- label: Kernels Core Operation Test
-  mirror_hardwares: [amd]
  source_file_dependencies:
  - csrc/
+  - tests/kernels/core
+  commands:
+    - pytest -v -s kernels/core
+- label: Kernels Attention Test %N
+  source_file_dependencies:
+  - csrc/attention/
  - vllm/attention
-  - tests/kernels
+  - vllm/v1/attention
+  - tests/kernels/attention
  commands:
-    - pytest -v -s kernels --shard-id=$$BUILDKITE_PARALLEL_JOB --num-shards=$$BUILDKITE_PARALLEL_JOB_COUNT
+    - pytest -v -s kernels/attention --shard-id=$$BUILDKITE_PARALLEL_JOB --num-shards=$$BUILDKITE_PARALLEL_JOB_COUNT
-  parallelism: 4
+  parallelism: 2
+- label: Kernels Quantization Test %N
+  source_file_dependencies:
+  - csrc/quantization/
+  - vllm/model_executor/layers/quantization
+  - tests/kernels/quantization
+  commands:
+    - pytest -v -s kernels/quantization  --shard-id=$$BUILDKITE_PARALLEL_JOB --num-shards=$$BUILDKITE_PARALLEL_JOB_COUNT
+  parallelism: 2
+- label: Kernels MoE Test
+  source_file_dependencies:
+  - csrc/moe/
+  - tests/kernels/moe
+  - vllm/model_executor/layers/fused_moe/
+  commands:
+    - pytest -v -s kernels/moe
+- label: Kernels Mamba Test
+  source_file_dependencies:
+  - csrc/mamba/
+  - tests/kernels/mamba
+  commands:
+    - pytest -v -s kernels/mamba
 - label: Tensorizer Test # 11min
  # mirror_hardwares: [amd]

--- a/tests/kernels/conftest.py
+++ b/tests/kernels/conftest.py
--- a/tests/kernels/test_attention.py
+++ b/tests/kernels/test_attention.py
@@ -6,13 +6,12 @@ from typing import Optional
 import pytest
 import torch
+from tests.kernels.allclose_default import get_default_atol, get_default_rtol
 from tests.kernels.utils import opcheck
 from vllm import _custom_ops as ops
 from vllm.platforms import current_platform
 from vllm.utils import get_max_shared_memory_bytes
-from .allclose_default import get_default_atol, get_default_rtol
 if not current_platform.is_rocm():
    from xformers import ops as xops
    from xformers.ops.fmha.attn_bias import BlockDiagonalCausalMask

--- a/tests/kernels/test_attention_selector.py
+++ b/tests/kernels/test_attention_selector.py
@@ -156,6 +156,15 @@ def test_env(
                        expected = ("TRITON_MLA_VLLM_V1"
                                    if use_v1 else "TRITON_MLA")
                        assert backend.get_name() == expected
+                elif name == "FLASHINFER":
+                    backend = get_attn_backend(16,
+                                               torch.float16,
+                                               torch.float16,
+                                               block_size,
+                                               False,
+                                               use_mla=use_mla)
+                    expected = "FLASHINFER_VLLM_V1" if use_v1 else name
+                    assert backend.get_name() == expected
                else:
                    backend = get_attn_backend(16,
                                               torch.float16,

--- a/tests/kernels/test_blocksparse_attention.py
+++ b/tests/kernels/test_blocksparse_attention.py
@@ -6,14 +6,13 @@ from typing import Optional
 import pytest
 import torch
+from tests.kernels.allclose_default import get_default_atol, get_default_rtol
 from vllm import _custom_ops as ops
 from vllm.attention.ops.blocksparse_attention.interface import (
    LocalStridedBlockSparseAttn)
 from vllm.platforms import current_platform
 from vllm.utils import get_max_shared_memory_bytes
-from .allclose_default import get_default_atol, get_default_rtol
 FLOAT32_BYTES = torch.finfo(torch.float).bits // 8
 # This will change depending on the compute capability.
 # - 512 as a buffer

--- a/tests/kernels/test_cache.py
+++ b/tests/kernels/test_cache.py
--- a/tests/kernels/test_cascade_flash_attn.py
+++ b/tests/kernels/test_cascade_flash_attn.py
--- a/tests/kernels/test_encoder_decoder_attn.py
+++ b/tests/kernels/test_encoder_decoder_attn.py
--- a/tests/kernels/test_flash_attn.py
+++ b/tests/kernels/test_flash_attn.py
--- a/tests/kernels/test_flashinfer.py
+++ b/tests/kernels/test_flashinfer.py
--- a/tests/kernels/test_flashmla.py
+++ b/tests/kernels/test_flashmla.py
--- a/tests/kernels/test_lightning_attn.py
+++ b/tests/kernels/test_lightning_attn.py
--- a/tests/kernels/test_merge_attn_states.py
+++ b/tests/kernels/test_merge_attn_states.py
--- a/tests/kernels/test_mha_attn.py
+++ b/tests/kernels/test_mha_attn.py
--- a/tests/kernels/test_mla_decode_cpu.py
+++ b/tests/kernels/test_mla_decode_cpu.py
--- a/tests/kernels/test_prefix_prefill.py
+++ b/tests/kernels/test_prefix_prefill.py
--- a/tests/kernels/test_rocm_attention_selector.py
+++ b/tests/kernels/test_rocm_attention_selector.py
--- a/tests/kernels/test_triton_decode_attention.py
+++ b/tests/kernels/test_triton_decode_attention.py
--- a/tests/kernels/test_activation.py
+++ b/tests/kernels/test_activation.py
@@ -5,6 +5,7 @@ import random
 import pytest
 import torch
+from tests.kernels.allclose_default import get_default_atol, get_default_rtol
 from tests.kernels.utils import opcheck
 from vllm.model_executor.layers.activation import (FastGELU, FatreluAndMul,
                                                   GeluAndMul, MulAndSilu,
@@ -12,8 +13,6 @@ from vllm.model_executor.layers.activation import (FastGELU, FatreluAndMul,
                                                   SiluAndMul)
 from vllm.platforms import current_platform
-from .allclose_default import get_default_atol, get_default_rtol
 DTYPES = [torch.half, torch.bfloat16, torch.float]
 NUM_TOKENS = [7, 83, 2048]  # Arbitrary values for testing
 D = [512, 13824]  # Arbitrary values for testing