Merge pull request #1246 from aubreyli/GenerationMixin

modeling_deepseek_v3: fix GenerationMixin warning

Merge pull request #1246 from aubreyli/GenerationMixin
modeling_deepseek_v3: fix GenerationMixin warning
8025def1 · Atream · GitHub · 900a7f7c · def1ec76 · 8025def1
Unverified Commit 8025def1 authored May 09, 2025 by Atream Committed by GitHub May 09, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 1 deletion

ktransformers/models/modeling_deepseek_v3.py ktransformers/models/modeling_deepseek_v3.py +2 -1

No files found.
--- a/ktransformers/models/modeling_deepseek_v3.py
+++ b/ktransformers/models/modeling_deepseek_v3.py
@@ -30,6 +30,7 @@ from torch.nn import BCEWithLogitsLoss, CrossEntropyLoss, MSELoss
 from transformers.activations import ACT2FN
 from transformers.cache_utils import Cache, DynamicCache, StaticCache
+from transformers.generation import GenerationMixin
 from transformers.modeling_attn_mask_utils import (
    AttentionMaskConverter,
    _prepare_4d_attention_mask,
@@ -1598,7 +1599,7 @@ class DeepseekV3Model(DeepseekV3PreTrainedModel):
        return causal_mask
-class DeepseekV3ForCausalLM(DeepseekV3PreTrainedModel):
+class DeepseekV3ForCausalLM(DeepseekV3PreTrainedModel, GenerationMixin):
    _tied_weights_keys = ["lm_head.weight"]
    def __init__(self, config):