Add support for quantization_config (#2842)

* Add support for quantization_config Summary: Previously quantization_config is ignored, so torchao quantized models are not supported, this PR adds that. Test Plan: lm_eval --model hf --model_args pretrained=jerryzh168/gemma3-int4wo --tasks hellaswag --device cuda:0 --batch_size 8 Reviewers: Subscribers: Tasks: Tags: * quantization_config is optional

Add support for quantization_config (#2842)
* Add support for quantization_config Summary: Previously quantization_config is ignored, so torchao quantized models are not supported, this PR adds that. Test Plan: lm_eval --model hf --model_args pretrained=jerryzh168/gemma3-int4wo --tasks hellaswag --device cuda:0 --batch_size 8 Reviewers: Subscribers: Tasks: Tags: * quantization_config is optional
758c5ed8 · Jerry Zhang · GitHub · a9582804 · 758c5ed8
Unverified Commit 758c5ed8 authored Apr 14, 2025 by Jerry Zhang Committed by GitHub Apr 15, 2025
Hide whitespace changes
Inline Side-by-side

Showing with 4 additions and 1 deletion

lm_eval/models/huggingface.py lm_eval/models/huggingface.py +4 -1

No files found.
--- a/lm_eval/models/huggingface.py
+++ b/lm_eval/models/huggingface.py
@@ -3,7 +3,7 @@ import logging
 import os
 from datetime import timedelta
 from pathlib import Path
-from typing import Dict, List, Literal, Optional, Tuple, Union
+from typing import Dict, List, Literal, Optional, Tuple, Union, Any
 import jinja2
 import torch
@@ -204,6 +204,7 @@ class HFLM(TemplateLM):
                autogptq=autogptq,
                gptqmodel=gptqmodel,
                gguf_file=gguf_file,
+                quantization_config=getattr(self.config, "quantization_config", None),
                **kwargs,
            )
@@ -546,6 +547,7 @@ class HFLM(TemplateLM):
        autogptq: Optional[Union[bool, str]] = False,
        gptqmodel: Optional[bool] = False,
        gguf_file: Optional[str] = None,
+        quantization_config: Optional[Dict[str, Any]] = None,
        **kwargs,
    ) -> None:
        """
@@ -591,6 +593,7 @@ class HFLM(TemplateLM):
                torch_dtype=get_dtype(dtype),
                trust_remote_code=trust_remote_code,
                gguf_file=gguf_file,
+                quantization_config=quantization_config,
                **model_kwargs,
            )
        else: