[Build] Avoid building too many extensions (#1624)

e0c6f556 · Yanming W · GitHub · de23687d · e0c6f556 · e0c6f556
Unverified Commit e0c6f556 authored Nov 23, 2023 by Yanming W Committed by GitHub Nov 23, 2023
Showing with 6 additions and 7 deletions

vllm/model_executor/layers/rotary_embedding.py vllm/model_executor/layers/rotary_embedding.py +4 -5

vllm/utils.py vllm/utils.py +1 -1

vllm/worker/cache_engine.py vllm/worker/cache_engine.py +1 -1

No files found.
--- a/vllm/model_executor/layers/rotary_embedding.py
+++ b/vllm/model_executor/layers/rotary_embedding.py
@@ -27,7 +27,7 @@ from typing import Any, Dict, Optional, Tuple, Union
 import torch
 import torch.nn as nn

-from vllm import pos_encoding_ops
+from vllm._C import ops


 class RotaryEmbedding(nn.Module):
@@ -87,11 +87,10 @@ class RotaryEmbedding(nn.Module):
        query: torch.Tensor,
        key: torch.Tensor,
    ) -> Tuple[torch.Tensor, torch.Tensor]:
-        # pos_encoding_ops.rotary_embedding() is an in-place operation that
+        # ops.rotary_embedding() is an in-place operation that
        # updates the query and key tensors.
-        pos_encoding_ops.rotary_embedding(positions, query, key,
-                                          self.head_size, self.cos_sin_cache,
-                                          self.is_neox_style)
+        ops.rotary_embedding(positions, query, key, self.head_size,
+                             self.cos_sin_cache, self.is_neox_style)
        return query, key



--- a/vllm/utils.py
+++ b/vllm/utils.py
@@ -5,7 +5,7 @@ from platform import uname
 import psutil
 import torch

-from vllm import cuda_utils
+from vllm._C import cuda_utils


 class Device(enum.Enum):

--- a/vllm/worker/cache_engine.py
+++ b/vllm/worker/cache_engine.py
@@ -3,7 +3,7 @@ from typing import Dict, List, Tuple

 import torch

-from vllm import cache_ops
+from vllm._C import cache_ops
 from vllm.config import CacheConfig, ModelConfig, ParallelConfig
 from vllm.logger import init_logger
 from vllm.utils import in_wsl