[CI] Try introducing isort. (#3495)

01bfb22b · SangBin Cho · GitHub · e67c295b · 01bfb22b · 01bfb22b
Unverified Commit 01bfb22b authored Mar 25, 2024 by SangBin Cho Committed by GitHub Mar 25, 2024
20 changed files
--- a/vllm/entrypoints/openai/serving_engine.py
+++ b/vllm/entrypoints/openai/serving_engine.py
@@ -3,16 +3,16 @@ import json
 from dataclasses import dataclass
 from http import HTTPStatus
 from typing import Dict, List, Optional, Union
-from vllm.logger import init_logger
-from vllm.transformers_utils.tokenizer import get_tokenizer
 from vllm.engine.async_llm_engine import AsyncLLMEngine
-from vllm.entrypoints.openai.protocol import (CompletionRequest,
+from vllm.entrypoints.openai.protocol import (ChatCompletionRequest,
-                                              ChatCompletionRequest,
+                                              CompletionRequest, ErrorResponse,
-                                              ErrorResponse, LogProbs,
+                                              LogProbs, ModelCard, ModelList,
-                                              ModelCard, ModelList,
                                              ModelPermission)
+from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
 from vllm.sequence import Logprob
+from vllm.transformers_utils.tokenizer import get_tokenizer
 logger = init_logger(__name__)

--- a/vllm/executor/executor_base.py
+++ b/vllm/executor/executor_base.py
 from abc import ABC, abstractmethod
 from typing import Dict, List, Optional
-from vllm.config import (CacheConfig, DeviceConfig, ModelConfig,
+from vllm.config import (CacheConfig, DeviceConfig, LoRAConfig, ModelConfig,
-                         ParallelConfig, SchedulerConfig, LoRAConfig)
+                         ParallelConfig, SchedulerConfig)
 from vllm.lora.request import LoRARequest
 from vllm.sequence import SamplerOutput, SequenceGroupMetadata

--- a/vllm/executor/gpu_executor.py
+++ b/vllm/executor/gpu_executor.py
 from typing import Dict, List, Optional
-from vllm.lora.request import LoRARequest
+from vllm.config import (CacheConfig, DeviceConfig, LoRAConfig, ModelConfig,
-from vllm.config import (CacheConfig, DeviceConfig, ModelConfig,
+                         ParallelConfig, SchedulerConfig)
-                         ParallelConfig, SchedulerConfig, LoRAConfig)
 from vllm.executor.executor_base import ExecutorAsyncBase, ExecutorBase
 from vllm.executor.utils import check_block_size_valid
 from vllm.logger import init_logger
+from vllm.lora.request import LoRARequest
 from vllm.sequence import SamplerOutput, SequenceGroupMetadata
-from vllm.utils import (get_ip, get_open_port, get_distributed_init_method,
+from vllm.utils import (get_distributed_init_method, get_ip, get_open_port,
                        make_async)
 logger = init_logger(__name__)

--- a/vllm/executor/neuron_executor.py
+++ b/vllm/executor/neuron_executor.py
 from typing import Dict, List, Optional
-from vllm.lora.request import LoRARequest
+from vllm.config import (CacheConfig, DeviceConfig, LoRAConfig, ModelConfig,
-from vllm.config import (CacheConfig, DeviceConfig, ModelConfig,
+                         ParallelConfig, SchedulerConfig)
-                         ParallelConfig, SchedulerConfig, LoRAConfig)
 from vllm.executor.executor_base import ExecutorBase
 from vllm.logger import init_logger
+from vllm.lora.request import LoRARequest
 from vllm.sequence import SamplerOutput, SequenceGroupMetadata
 logger = init_logger(__name__)

--- a/vllm/executor/ray_gpu_executor.py
+++ b/vllm/executor/ray_gpu_executor.py
 import asyncio
 import copy
-from collections import defaultdict
 import os
 import pickle
+from collections import defaultdict
 from typing import TYPE_CHECKING, Any, Dict, List, Optional
-from vllm.config import (CacheConfig, DeviceConfig, ModelConfig,
+from vllm.config import (CacheConfig, DeviceConfig, LoRAConfig, ModelConfig,
-                         ParallelConfig, SchedulerConfig, LoRAConfig)
+                         ParallelConfig, SchedulerConfig)
 from vllm.engine.ray_utils import RayWorkerVllm, ray
 from vllm.executor.executor_base import ExecutorAsyncBase, ExecutorBase
 from vllm.executor.utils import check_block_size_valid
 from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
 from vllm.sequence import SamplerOutput, SequenceGroupMetadata
-from vllm.utils import (set_cuda_visible_devices, get_ip, get_open_port,
+from vllm.utils import (get_distributed_init_method, get_ip, get_open_port,
-                        get_distributed_init_method, make_async)
+                        make_async, set_cuda_visible_devices)
 if ray is not None:
    from ray.util.scheduling_strategies import PlacementGroupSchedulingStrategy
@@ -343,7 +343,7 @@ class RayGPUExecutor(ExecutorBase):
            raise ValueError(f"Ray version {required_version} or greater is "
                             f"required, but found {current_version}")
-        from ray.dag import MultiOutputNode, InputNode
+        from ray.dag import InputNode, MultiOutputNode
        assert self.parallel_config.worker_use_ray
        # Right now, compiled DAG requires at least 1 arg. We send

--- a/vllm/logger.py
+++ b/vllm/logger.py
@@ -2,8 +2,8 @@
 # https://github.com/skypilot-org/skypilot/blob/86dc0f6283a335e4aa37b3c10716f90999f48ab6/sky/sky_logging.py
 """Logging configuration for vLLM."""
 import logging
-import sys
 import os
+import sys
 VLLM_CONFIGURE_LOGGING = int(os.getenv("VLLM_CONFIGURE_LOGGING", "1"))

--- a/vllm/lora/layers.py
+++ b/vllm/lora/layers.py
@@ -10,18 +10,16 @@ from transformers import PretrainedConfig
 from vllm.config import LoRAConfig
 from vllm.lora.punica import add_lora, add_lora_slice, bgmv
-from vllm.model_executor.parallel_utils.communication_op import (
-    tensor_model_parallel_all_gather,
-    tensor_model_parallel_all_reduce,
-    tensor_model_parallel_gather,
-)
 from vllm.model_executor.layers.linear import (ColumnParallelLinear,
-                                               RowParallelLinear,
+                                               MergedColumnParallelLinear,
                                               QKVParallelLinear,
-                                               MergedColumnParallelLinear)
+                                               RowParallelLinear)
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.vocab_parallel_embedding import (
-    VocabParallelEmbedding, ParallelLMHead)
+    ParallelLMHead, VocabParallelEmbedding)
+from vllm.model_executor.parallel_utils.communication_op import (
+    tensor_model_parallel_all_gather, tensor_model_parallel_all_reduce,
+    tensor_model_parallel_gather)
 from vllm.model_executor.parallel_utils.parallel_state import (
    get_tensor_model_parallel_rank, get_tensor_model_parallel_world_size)
 from vllm.model_executor.parallel_utils.utils import (

--- a/vllm/lora/lora.py
+++ b/vllm/lora/lora.py
 from typing import List, Optional
 import torch
 from vllm.utils import is_pin_memory_available

--- a/vllm/lora/models.py
+++ b/vllm/lora/models.py
@@ -4,19 +4,18 @@ import logging
 import math
 import os
 import re
-from typing import (Callable, Dict, Hashable, List, Optional, Tuple, Type)
+from typing import Callable, Dict, Hashable, List, Optional, Tuple, Type
 import safetensors.torch
 import torch
 from torch import nn
 from vllm.config import LoRAConfig
-from vllm.utils import LRUCache, is_pin_memory_available
 from vllm.lora.layers import (BaseLayerWithLoRA, LoRAMapping, from_layer,
                              from_layer_logits_processor)
 from vllm.lora.lora import LoRALayerWeights, PackedLoRALayerWeights
 from vllm.lora.utils import parse_fine_tuned_lora_name, replace_submodule
+from vllm.utils import LRUCache, is_pin_memory_available
 logger = logging.getLogger(__name__)

--- a/vllm/lora/worker_manager.py
+++ b/vllm/lora/worker_manager.py
@@ -4,11 +4,11 @@ from typing import Any, Dict, List, Optional, Set, Type
 import torch
+from vllm.config import LoRAConfig
+from vllm.lora.layers import LoRAMapping
 from vllm.lora.models import (LoRAModel, LoRAModelManager,
                              LRUCacheLoRAModelManager, create_lora_manager)
 from vllm.lora.request import LoRARequest
-from vllm.lora.layers import LoRAMapping
-from vllm.config import LoRAConfig
 logger = logging.getLogger(__name__)

--- a/vllm/model_executor/guided_decoding.py
+++ b/vllm/model_executor/guided_decoding.py
@@ -5,16 +5,16 @@ from enum import Enum
 from functools import lru_cache
 from json import dumps as json_dumps
 from re import escape as regex_escape
-from typing import Union, Tuple
+from typing import Tuple, Union
 from pydantic import BaseModel
 from transformers import PreTrainedTokenizerBase
-from vllm.entrypoints.openai.protocol import (CompletionRequest,
+from vllm.entrypoints.openai.protocol import (ChatCompletionRequest,
-                                              ChatCompletionRequest)
+                                              CompletionRequest)
-from vllm.model_executor.guided_logits_processors import (JSONLogitsProcessor,
+from vllm.model_executor.guided_logits_processors import (CFGLogitsProcessor,
-                                                          RegexLogitsProcessor,
+                                                          JSONLogitsProcessor,
-                                                          CFGLogitsProcessor)
+                                                          RegexLogitsProcessor)
 class GuidedDecodingMode(Enum):

--- a/vllm/model_executor/guided_logits_processors.py
+++ b/vllm/model_executor/guided_logits_processors.py
@@ -16,13 +16,13 @@
 import json
 import math
 from collections import defaultdict
-from typing import Union, DefaultDict, Dict, List, Optional, Callable
+from typing import Callable, DefaultDict, Dict, List, Optional, Union
 import torch
+from outlines.fsm.fsm import CFGFSM, RegexFSM
+from outlines.fsm.json_schema import build_regex_from_schema
 from pydantic import BaseModel
 from transformers import PreTrainedTokenizerBase
-from outlines.fsm.fsm import RegexFSM, CFGFSM
-from outlines.fsm.json_schema import build_regex_from_schema
 class BaseLogitsProcessor:

--- a/vllm/model_executor/layers/fused_moe/__init__.py
+++ b/vllm/model_executor/layers/fused_moe/__init__.py
 from vllm.model_executor.layers.fused_moe.fused_moe import (
-    fused_moe,
+    fused_moe, get_config_file_name)
-    get_config_file_name,
-)
 __all__ = [
    "fused_moe",

--- a/vllm/model_executor/layers/linear.py
+++ b/vllm/model_executor/layers/linear.py
@@ -5,14 +5,14 @@ import torch
 import torch.nn.functional as F
 from torch.nn.parameter import Parameter
+from vllm.logger import init_logger
+from vllm.model_executor.parallel_utils.communication_op import (
+    tensor_model_parallel_all_gather, tensor_model_parallel_all_reduce)
 from vllm.model_executor.parallel_utils.parallel_state import (
    get_tensor_model_parallel_rank, get_tensor_model_parallel_world_size)
-from vllm.model_executor.parallel_utils.communication_op import (
-    tensor_model_parallel_all_reduce, tensor_model_parallel_all_gather)
 from vllm.model_executor.parallel_utils.utils import (
    divide, split_tensor_along_last_dim)
 from vllm.model_executor.utils import set_weight_attrs
-from vllm.logger import init_logger
 logger = init_logger(__name__)

--- a/vllm/model_executor/layers/ops/rand.py
+++ b/vllm/model_executor/layers/ops/rand.py
+from typing import Optional, Union
 import torch
 import triton
 import triton.language as tl
-from typing import Optional, Union
 def seeded_uniform(
    *size,

--- a/vllm/model_executor/layers/ops/sample.py
+++ b/vllm/model_executor/layers/ops/sample.py
 import math
-from typing import Tuple, Optional
+from typing import Optional, Tuple
 import torch
 import triton

--- a/vllm/model_executor/layers/quantization/__init__.py
+++ b/vllm/model_executor/layers/quantization/__init__.py
 from typing import Type
+from vllm.model_executor.layers.quantization.awq import AWQConfig
 from vllm.model_executor.layers.quantization.base_config import (
    QuantizationConfig)
-from vllm.model_executor.layers.quantization.awq import AWQConfig
 from vllm.model_executor.layers.quantization.gptq import GPTQConfig
-from vllm.model_executor.layers.quantization.squeezellm import SqueezeLLMConfig
 from vllm.model_executor.layers.quantization.marlin import MarlinConfig
+from vllm.model_executor.layers.quantization.squeezellm import SqueezeLLMConfig
 _QUANTIZATION_CONFIG_REGISTRY = {
    "awq": AWQConfig,

--- a/vllm/model_executor/layers/quantization/gptq.py
+++ b/vllm/model_executor/layers/quantization/gptq.py
 import enum
 from enum import Enum
-from typing import Any, Dict, List, Optional
 from fractions import Fraction
+from typing import Any, Dict, List, Optional
 import torch
 from torch.nn.parameter import Parameter

--- a/vllm/model_executor/layers/quantization/marlin.py
+++ b/vllm/model_executor/layers/quantization/marlin.py
@@ -4,7 +4,8 @@ import torch
 from torch.nn.parameter import Parameter
 from vllm._C import ops
-from vllm.model_executor.layers.linear import LinearMethodBase, set_weight_attrs
+from vllm.model_executor.layers.linear import (LinearMethodBase,
+                                               set_weight_attrs)
 from vllm.model_executor.layers.quantization.base_config import (
    QuantizationConfig)

--- a/vllm/model_executor/layers/rejection_sampler.py
+++ b/vllm/model_executor/layers/rejection_sampler.py
-from typing import Tuple, Optional
 from functools import cached_property
+from typing import Optional, Tuple
 import torch
-import torch.nn as nn
 import torch.jit
+import torch.nn as nn
 class RejectionSampler(nn.Module):