[Doc] small fix (#17277)

Signed-off-by: reidliu41 <reid201711@gmail.com> Co-authored-by: reidliu41 <reid201711@gmail.com>

[Doc] small fix (#17277)
Signed-off-by: reidliu41 <reid201711@gmail.com> Co-authored-by: reidliu41 <reid201711@gmail.com>
f211331c · Reid · GitHub · 9053d0b1 · f211331c · f211331c
Unverified Commit f211331c authored Apr 28, 2025 by Reid Committed by GitHub Apr 28, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 3 additions and 1 deletion

docs/source/models/generative_models.md docs/source/models/generative_models.md +1 -1

docs/source/models/supported_models.md docs/source/models/supported_models.md +2 -0

No files found.
--- a/docs/source/models/generative_models.md
+++ b/docs/source/models/generative_models.md
@@ -59,7 +59,7 @@ A code example can be found here: <gh-file:examples/offline_inference/basic/basi

 ### `LLM.beam_search`

-The {class}`~vllm.LLM.beam_search` method implements [beam search](https://huggingface.co/docs/transformers/en/generation_strategies#beam-search-decoding) on top of {class}`~vllm.LLM.generate`.
+The {class}`~vllm.LLM.beam_search` method implements [beam search](https://huggingface.co/docs/transformers/en/generation_strategies#beam-search) on top of {class}`~vllm.LLM.generate`.
 For example, to search using 5 beams and output at most 50 tokens:

 ```python

--- a/docs/source/models/supported_models.md
+++ b/docs/source/models/supported_models.md
@@ -793,6 +793,8 @@ or `--limit-mm-per-prompt` (online serving). For example, to enable passing up t
 Offline inference:

 ```python
+from vllm import LLM
+
 llm = LLM(
    model="Qwen/Qwen2-VL-7B-Instruct",
    limit_mm_per_prompt={"image": 4},