Initial commit

be3dfa50 · jerrrrry · be3dfa50 · be3dfa50 · be3dfa50 · be3dfa50
Commit be3dfa50 authored Aug 06, 2025 by jerrrrry
20 changed files
--- a/docs/zh_cn/user_guides/evaluation.md
+++ b/docs/zh_cn/user_guides/evaluation.md
+# 数据分片
+
+OpenCompass 支持自定义评测任务的任务划分器（`Partitioner`），实现评测任务的灵活切分；同时配合 `Runner` 控制任务执行的平台，如本机及集群。通过二者的组合，OpenCompass 可以将大评测任务分割到大量计算节点上运行，高效利用计算资源，从而大大加速评测流程。
+
+默认情况下，OpenCompass 向用户隐藏了这些细节，并自动选择推荐的执行策略。但是，用户仍然可以根据自己需求定制其策略，只需向配置文件中添加 `infer` 和/或 `eval` 字段即可：
+
+```python
+from opencompass.partitioners import SizePartitioner, NaivePartitioner
+from opencompass.runners import SlurmRunner
+from opencompass.tasks import OpenICLInferTask, OpenICLEvalTask
+
+infer = dict(
+    partitioner=dict(type=SizePartitioner, max_task_size=5000),
+    runner=dict(
+        type=SlurmRunner,
+        max_num_workers=64,
+        task=dict(type=OpenICLInferTask),
+        retry=5),
+)
+
+eval = dict(
+    partitioner=dict(type=NaivePartitioner),
+    runner=dict(
+        type=LocalRunner,
+        max_num_workers=32,
+        task=dict(type=OpenICLEvalTask)),
+)
+```
+
+上面的例子演示了如何为推理和评估阶段配置执行策略。在推理阶段，任务将被划分成若干个子任务，每个子任务包含5000个样本，然后提交到 Slurm 集群进行执行，其中最多有64个任务并行运行。在评估阶段，每个单一的模型-数据集对形成一个任务，并在本地启动32个进程来计算指标。
+
+以下章节将详细介绍里面涉及的模块。
+
+## 任务划分 (Partitioner)
+
+由于大语言模型的推理耗时长，评测的数据集量大，因此串行运行一次评测任务的时间开销往往很大。
+OpenCompass 支持通过自定义评测任务的任务划分器（`Partitioner`），将大评测任务按不同策略划分为众多独立的小任务，通过并行运行充分利用计算资源。用户可以通过 `infer.partitioner` 及 `eval.partitioner` 配置推理和评测阶段的任务划分策略。下面，我们将会介绍 OpenCompass 中支持的所有划分策略。
+
+### `NaivePartitioner`
+
+该划分器会将每个模型和数据集的组合作为一个独立任务派发，为最基础的划分策略，并无任何额外参数。
+
+![](https://github.com/user-attachments/assets/f92524ea-5451-429d-a446-97bf36d917ea)
+
+```python
+from opencompass.partitioners import NaivePartitioner
+
+infer = dict(
+    partitioner=dict(type=NaivePartitioner)
+    # ...
+)
+```
+
+### `NumWorkerPartitioner`
+
+```{warning}
+该划分器目前不适用于评测阶段的任务（`OpenICLEvalTask`）。
+```
+
+```{note}
+该划分器是目前推理阶段默认使用的划分器。
+```
+
+```{warning}
+由于实现方式等问题，推理时如果需要断点继续，请不要修改 `num_split` 的值 (若 `num_split` 为 `None`，则不要修改 `num_worker` 的值)。
+```
+
+该划分器会将每个数据集划分成 `num_split` 个，然后将这些数据集均匀地分入 `num_worker` 个任务中，其中的任务数预期应该是与实际运行的 worker 数目是相同的。
+
+![](https://github.com/user-attachments/assets/432a6738-3298-4729-8b00-a370ea5053ac)
+![](https://github.com/user-attachments/assets/07fb30fa-eb2d-4f1b-bf7d-c05ebdba518d)
+
+```python
+from opencompass.partitioners import NumWorkerPartitioner
+
+infer = dict(
+    partitioner=dict(
+        type=NumWorkerPartitioner,
+        num_worker=16,    # 划分完成后的任务数 / 预期能有的 worker 数
+        num_split=None,   # 每个数据集将被划分成多少份。若为 None，则使用 num_worker。
+        min_task_size=16, # 每个划分的最小数据条目数
+    ),
+    # ...
+)
+```
+
+### `SizePartitioner`
+
+```{warning}
+该划分器目前不适用于评测阶段的任务（`OpenICLEvalTask`）。
+```
+
+该划分器会根据数据集的大小，乘上一个扩张系数，估算该数据集的推理成本（耗时）。然后会通过切分大数据集、合并小数据集的方式创建任务，尽可能保证各个子任务推理成本均等。
+
+![](https://github.com/user-attachments/assets/b707c92f-0738-4e9a-a53e-64510c75898b)
+
+该划分器常用的参数如下：
+
+```python
+from opencompass.partitioners import SizePartitioner
+
+infer = dict(
+    partitioner=dict(
+        type=SizePartitioner,
+        max_task_size: int = 2000,  # 单个任务的最大长度
+        gen_task_coef: int = 20,  # 生成式任务的扩张系数
+    ),
+    # ...
+)
+```
+
+`SizePartitioner` 在估算数据集推理成本时, 会根据推理任务的类型，选择不同的扩张系数。对于生成式任务，如使用 `GenInferencer` 的任务，会设置成比较大的 `gen_task_coef`；对于判别式任务，如使用 `PPLInferencer` 的任务，则会设置成 prompt 中 label 的数量。
+
+```{note}
+目前这种分割策略实现仍然比较粗糙，并未能准确反映生成式任务与判别式任务的计算量差距。我们也期待社区能提出更好的划分策略 ：）
+```
+
+## 运行后端 (Runner)
+
+在多卡多机的集群环境下，我们若想实现多个任务的并行执行，通常需要依赖集群管理系统（如 Slurm）对任务进行分配和调度。OpenCompass 中，任务的分配和运行统一交由 Runner 负责。目前已经支持了 Slurm 和 PAI-DLC 两种调度后端，同时也保留了在本机直接启动任务的 `LocalRunner`。
+
+### `LocalRunner`
+
+`LocalRunner` 为最基本的运行器，可以将任务在本机并行运行。
+
+```python
+from opencompass.runners import LocalRunner
+from opencompass.tasks import OpenICLInferTask
+
+infer = dict(
+    # ...
+    runner=dict(
+        type=LocalRunner,
+        max_num_workers=16,  # 最大并行运行进程数
+        task=dict(type=OpenICLEvalTask),  # 待运行的任务
+    )
+)
+```
+
+```{note}
+实际的运行任务数受到可用 GPU 资源和 `max_num_workers` 的限制。
+```
+
+### `SlurmRunner`
+
+`SlurmRunner` 会将任务提交到 Slurm 集群上运行。常用的配置字段如下：
+
+```python
+from opencompass.runners import SlurmRunner
+from opencompass.tasks import OpenICLInferTask
+
+infer = dict(
+    # ...
+    runner=dict(
+        type=SlurmRunner,
+        task=dict(type=OpenICLEvalTask),  # 待运行任务
+        max_num_workers=16,  # 最大同时评测任务数
+        retry=2,  # 任务失败的重试次数，可以避免意外发生的错误
+    ),
+)
+```
+
+### `DLCRunner`
+
+`DLCRunner` 则可以将任务提交到 Alibaba Deep Learning Ceneter (DLC) 运行，该 Runner 依赖于 dlc。首先，先在环境内准备好 dlc：
+
+```bash
+cd ~
+wget https://dlc-cli.oss-cn-zhangjiakou.aliyuncs.com/light/binary/linux/amd64/dlc
+chmod +x ./dlc
+sudo ln -rs dlc /usr/local/bin
+./dlc config
+```
+
+根据提示填入相应信息，并得到 dlc 的配置文件（如 /user/.dlc/config），即完成了前期准备。之后，我们在配置文件按照格式指定 `DLCRunner` 的配置：
+
+```python
+from opencompass.runners import DLCRunner
+from opencompass.tasks import OpenICLInferTask
+
+infer = dict(
+    # ...
+    runner=dict(
+        type=DLCRunner,
+        task=dict(type=OpenICLEvalTask),  # 待运行任务
+        max_num_workers=16,  # 最大同时评测任务数
+        aliyun_cfg=dict(
+            bashrc_path="/user/.bashrc",  # 用于初始化运行环境的 bashrc 路径
+            conda_env_name='opencompass',  # OpenCompass 的 conda 环境
+            dlc_config_path="/user/.dlc/config",  # dlc 配置文件
+            workspace_id='ws-xxx',  # DLC 工作空间 ID
+            worker_image='xxx',  # 运行任务的 image url
+        ),
+        retry=2,  # 任务失败的重试次数，可以避免意外发生的错误
+    ),
+)
+
+```
+
+## 任务 (Task)
+
+任务（Task）是 OpenCompass 中的一个基础模块，本身是一个独立的脚本，用于执行计算密集的操作。每个任务都通过配置文件确定参数设置，且可以通过两种不同的方式执行：
+
+1. 实例化一个任务对象，然后调用 `task.run()` 方法。
+2. 调用 `get_command` 方法，并传入配置路径和包含 `{task_cmd}` 占位符的命令模板字符串（例如 `srun {task_cmd}`）。返回的命令字符串将是完整的命令，可以直接执行。
+
+目前，OpenCompass 支持以下任务类型：
+
+- `OpenICLInferTask`：基于 OpenICL 框架执行语言模型（LM）推断任务。
+- `OpenICLEvalTask`：基于 OpenEval 框架执行语言模型（LM）评估任务。
+
+未来，OpenCompass 将支持更多类型的任务。
--- a/docs/zh_cn/user_guides/experimentation.md
+++ b/docs/zh_cn/user_guides/experimentation.md
+# 任务运行和监控
+
+## 评测任务发起
+
+评测任务的程序入口为 `run.py`，使用方法如下：
+
+```shell
+python run.py $EXP {--slurm | --dlc | None} [-p PARTITION] [-q QUOTATYPE] [--debug] [-m MODE] [-r [REUSE]] [-w WORKDIR] [-l] [--dry-run] [--dump-eval-details]
+```
+
+任务配置 (`$EXP`)：
+
+- `run.py` 允许接受一个 .py 配置文件作为任务相关参数，里面需要包含 `datasets` 和 `models` 字段。
+
+  ```bash
+  python run.py configs/eval_demo.py
+  ```
+
+- 如果不传入配置文件，用户也可以通过 `--models MODEL1 MODEL2 ...` 和 `--datasets DATASET1 DATASET2 ...` 来指定模型和数据集:
+
+  ```bash
+  python run.py --models hf_opt_350m hf_opt_125m --datasets siqa_gen winograd_ppl
+  ```
+
+- 对于 HuggingFace 相关模型，用户也可以通过 HuggingFace 参数快速在命令行中定义一个模型，再通过 `--datasets DATASET1 DATASET2 ...` 定义数据集。
+
+  ```bash
+  python run.py --datasets siqa_gen winograd_ppl --hf-type base --hf-path huggyllama/llama-7b
+  ```
+
+  HuggingFace 全量参数介绍如下：
+
+  - `--hf-path`:  HuggingFace 模型地址
+  - `--peft-path`: PEFT 模型地址
+  - `--tokenizer-path`: HuggingFace tokenizer 地址（如与模型地址相同，可省略）
+  - `--model-kwargs`: 构造 model 的参数
+  - `--tokenizer-kwargs`: 构造 tokenizer 的参数
+  - `--max-out-len`: 最长生成 token 数
+  - `--max-seq-len`: 模型能接受的最大序列长度
+  - `--batch-size`: 批次大小
+  - `--hf-num-gpus`: 运行模型所需的gpu数
+
+启动方式：
+
+- 本地机器运行: `run.py $EXP`。
+- srun运行: `run.py $EXP --slurm -p $PARTITION_name`。
+- dlc运行： `run.py $EXP --dlc --aliyun-cfg $AliYun_Cfg`
+- 定制化启动: `run.py $EXP`。这里 $EXP 为配置文件，且里面包含 `eval` 和 `infer` 字段，详细配置请参考 [数据分片](./evaluation.md)。
+
+参数解释如下：
+
+- `-p`: 指定 slurm 分区；
+- `-q`: 指定 slurm quotatype（默认为 None），可选 reserved, auto, spot。该参数可能仅适用于部分 slurm 的变体；
+- `--debug`: 开启时，推理和评测任务会以单进程模式运行，且输出会实时回显，便于调试；
+- `-m`: 运行模式，默认为 `all`。可以指定为 `infer` 则仅运行推理，获得输出结果；如果在 `{WORKDIR}` 中已经有模型输出，则指定为 `eval` 仅运行评测，获得评测结果；如果在 `results/` 中已有单项评测结果，则指定为 `viz` 仅运行可视化；指定为 `all` 则同时运行推理和评测。
+- `-r`: 重用已有的推理结果。如果后面跟有时间戳，则会复用工作路径下该时间戳的结果；否则则复用指定工作路径下的最新结果。
+- `-w`: 指定工作路径，默认为 `./outputs/default`
+- `-l`: 打开飞书机器人状态上报。
+- `--dry-run`: 开启时，推理和评测任务仅会分发但不会真正运行，便于调试；
+- `--dump-eval-details`: 开启时，`results` 下的评测结果中将会包含更加详细的评测结果信息，例如每条样本是否正确等。
+
+以运行模式 `-m all` 为例，整体运行流如下：
+
+1. 读取配置文件，解析出模型、数据集、评估器等配置信息
+2. 评测任务主要分为推理 `infer`、评测 `eval` 和可视化 `viz` 三个阶段，其中推理和评测经过 Partitioner 进行任务切分后，交由 Runner 负责并行执行。单个推理和评测任务则被抽象成 `OpenICLInferTask` 和 `OpenICLEvalTask`。
+3. 两阶段分别结束后，可视化阶段会读取 `results/` 中的评测结果，生成可视化报告。
+
+## 任务监控：飞书机器人
+
+用户可以通过配置飞书机器人，实现任务状态的实时监控。飞书机器人的设置文档请[参考这里](https://open.feishu.cn/document/ukTMukTMukTM/ucTM5YjL3ETO24yNxkjN?lang=zh-CN#7a28964d)。
+
+配置方式:
+
+1. 打开 `configs/lark.py` 文件，并在文件中加入以下行：
+
+   ```python
+   lark_bot_url = 'YOUR_WEBHOOK_URL'
+   ```
+
+   通常， Webhook URL 格式如 https://open.feishu.cn/open-apis/bot/v2/hook/xxxxxxxxxxxxxxxxx 。
+
+2. 在完整的评测配置中继承该文件：
+
+   ```python
+     from mmengine.config import read_base
+
+     with read_base():
+         from .lark import lark_bot_url
+
+   ```
+
+3. 为了避免机器人频繁发消息形成骚扰，默认运行时状态不会自动上报。有需要时，可以通过 `-l` 或 `--lark` 启动状态上报：
+
+   ```bash
+   python run.py configs/eval_demo.py -p {PARTITION} -l
+   ```
+
+## 运行结果
+
+所有运行结果会默认放在`outputs/default/`目录下，目录结构如下所示：
+
+```text
+outputs/default/
+├── 20200220_120000
+├── ...
+├── 20230220_183030
+│   ├── configs
+│   ├── logs
+│   │   ├── eval
+│   │   └── infer
+│   ├── predictions
+│   │   └── MODEL1
+│   └── results
+│       └── MODEL1
+```
+
+其中，每一个时间戳中存在以下内容：
+
+- configs 文件夹，用于存放以这个时间戳为输出目录的每次运行对应的配置文件；
+- logs 文件夹，用于存放推理和评测两个阶段的输出日志文件，各个文件夹内会以模型为子文件夹存放日志；
+- predicitions 文件夹，用于存放推理 json 结果，以模型为子文件夹；
+- results 文件夹，用于存放评测 json 结果，以模型为子文件夹
+
+另外，所有指定-r 但是没有指定对应时间戳将会按照排序选择最新的文件夹作为输出目录。
+
+## Summerizer介绍 （待更新）
--- a/docs/zh_cn/user_guides/framework_overview.md
+++ b/docs/zh_cn/user_guides/framework_overview.md
+# 整体概括
+
+## 评测对象
+
+本算法库的主要评测对象为语言大模型与多模态大模型。我们以语言大模型为例介绍评测的具体模型类型。
+
+- 基座模型：一般是经过海量的文本数据以自监督学习的方式进行训练获得的模型（如OpenAI的GPT-3，Meta的LLaMA），往往具有强大的文字续写能力。
+
+- 对话模型：一般是在的基座模型的基础上，经过指令微调或人类偏好对齐获得的模型（如OpenAI的ChatGPT、上海人工智能实验室的书生·浦语），能理解人类指令，具有较强的对话能力。
+
+## 工具架构
+
+![framework-cn](https://github.com/tonysy/opencompass/assets/7881589/374d9cec-2ebc-442a-ab11-191a7d5cf5e9)
+
+- 模型层：大模型评测所涉及的主要模型种类，OpenCompass以基座模型和对话模型作为重点评测对象。
+- 能力层：OpenCompass从本方案从通用能力和特色能力两个方面来进行评测维度设计。在模型通用能力方面，从语言、知识、理解、推理、安全等多个能力维度进行评测。在特色能力方面，从长文本、代码、工具、知识增强等维度进行评测。
+- 方法层：OpenCompass采用客观评测与主观评测两种评测方式。客观评测能便捷地评估模型在具有确定答案（如选择，填空，封闭式问答等）的任务上的能力，主观评测能评估用户对模型回复的真实满意度，OpenCompass采用基于模型辅助的主观评测和基于人类反馈的主观评测两种方式。
+- 工具层：OpenCompass提供丰富的功能支持自动化地开展大语言模型的高效评测。包括分布式评测技术，提示词工程，对接评测数据库，评测榜单发布，评测报告生成等诸多功能。
+
+## 能力维度
+
+### 设计思路
+
+为准确、全面、系统化地评估大语言模型的能力，OpenCompass从通用人工智能的角度出发，结合学术界的前沿进展和工业界的最佳实践，提出一套面向实际应用的模型能力评价体系。OpenCompass能力维度体系涵盖通用能力和特色能力两大部分。
+
+### 通用能力
+
+通用能力涵盖学科综合能力、知识能力、语言能力、理解能力、推理能力、安全能力，共计六大维度构造立体全面的模型能力评价体系。
+
+#### 学科综合能力
+
+该维度旨在从人类成长角度，借鉴教育学中的分类逻辑，从学科综合能力层面为模型能力评测提供维度支撑。本维度的核心思路是从义务教育、高等教育以及职业教育等角度，通过对各级学科进行分类，构建完整的学科能力评测方案。
+
+#### 知识能力
+
+知识能力具体衡量模型对于各类知识的掌握情况，包括但不限于社会常识、专业领域知识等。该能力项希望模型能准确、完善的回答各类知识性问题。
+
+#### 推理能力
+
+推理能力是通用人工智能的重要能力维度，该维度旨在系统性评估模型的推理能力，包括但不限于数学计算能力，逻辑推理能力，因果推断能力，代码生成与修改能力等。
+
+#### 理解能力
+
+理解能力旨在评估模型对文字的理解能力，包括不限于：
+
+- 修辞手法理解与分析：理解文字中使用的各类修辞手法，能对相关修辞手法进行分析与解释。
+- 文字内容总结：针对给定内容进行内容总结和信息抽取。
+- 文字内容创作：围绕给定的主题或要求进行开放式或半开放式的内容创作。
+
+#### 语言能力
+
+语言能力旨在评估模型在语言先验上的表现，该维度能力包括但不限于：
+
+- 字词理解与生成：从字词层面理解语言，并能完成诸如字词识别与分类，字词含义解释，字词生成等任务。
+- 语法理解与修改：理解文字中的语法，并能错误语法表达进行识别和修改。
+- 文字跨语言翻译：针对给定的源语言，翻译到目标语言。在多语种能力维度评估现有大模型的能力。
+
+#### 安全能力
+
+OpenCompass结合大语言模型的技术特点，对模型输出是否合法合规、安全无害设计相应维度进行评测，助力安全、负责任的大模型研发。改维度能力包括但不限于：
+
+- 公平性
+- 合法性
+- 无害性
+- 伦理道德
+- 保护隐私
+
+## 评测方法
+
+OpenCompass采取客观评测与主观评测相结合的方法。针对具有确定性答案的能力维度和场景，通过构造丰富完善的评测集，对模型能力进行综合评价。针对体现模型能力的开放式或半开放式的问题、模型安全问题等，采用主客观相结合的评测方式。
+
+### 客观评测
+
+针对具有标准答案的客观问题，我们可以我们可以通过使用定量指标比较模型的输出与标准答案的差异，并根据结果衡量模型的性能。同时，由于大语言模型输出自由度较高，在评测阶段，我们需要对其输入和输出作一定的规范和设计，尽可能减少噪声输出在评测阶段的影响，才能对模型的能力有更加完整和客观的评价。
+
+为了更好地激发出模型在题目测试领域的能力，并引导模型按照一定的模板输出答案，OpenCompass采用提示词工程 （prompt engineering）和语境学习（in-context learning）进行客观评测。
+
+在客观评测的具体实践中，我们通常采用下列两种方式进行模型输出结果的评测：
+
+- **判别式评测**：该评测方式基于将问题与候选答案组合在一起，计算模型在所有组合上的困惑度（perplexity），并选择困惑度最小的答案作为模型的最终输出。例如，若模型在 `问题? 答案1` 上的困惑度为 0.1，在 `问题? 答案2` 上的困惑度为 0.2，最终我们会选择 `答案1` 作为模型的输出。
+
+- **生成式评测**：该评测方式主要用于生成类任务，如语言翻译、程序生成、逻辑分析题等。具体实践时，使用问题作为模型的原始输入，并留白答案区域待模型进行后续补全。我们通常还需要对其输出进行后处理，以保证输出满足数据集的要求。
+
+### 主观评测(即将发布)
+
+语言表达生动精彩，变化丰富，大量的场景和能力无法凭借客观指标进行评测。针对如模型安全和模型语言能力的评测，以人的主观感受为主的评测更能体现模型的真实能力，并更符合大模型的实际使用场景。
+
+OpenCompass采取的主观评测方案是指借助受试者的主观判断对具有对话能力的大语言模型进行能力评测。在具体实践中，我们提前基于模型的能力维度构建主观测试问题集合，并将不同模型对于同一问题的不同回复展现给受试者，收集受试者基于主观感受的评分。由于主观测试成本高昂，本方案同时也采用使用性能优异的大语言模拟人类进行主观打分。在实际评测中，本文将采用真实人类专家的主观评测与基于模型打分的主观评测相结合的方式开展模型能力评估。
+
+在具体开展主观评测时，OpenComapss采用**单模型回复满意度统计**和**多模型满意度比较**两种方式开展具体的评测工作。
--- a/docs/zh_cn/user_guides/metrics.md
+++ b/docs/zh_cn/user_guides/metrics.md
+# 评估指标
+
+在评测阶段，我们一般以数据集本身的特性来选取对应的评估策略，最主要的依据为**标准答案的类型**，一般以下几种类型：
+
+- **选项**：常见于分类任务，判断题以及选择题，目前这类问题的数据集占比最大，有 MMLU, CEval 数据集等等，评估标准一般使用准确率--`ACCEvaluator`。
+- **短语**：常见于问答以及阅读理解任务，这类数据集主要包括 CLUE_CMRC, CLUE_DRCD, DROP 数据集等等，评估标准一般使用匹配率--`EMEvaluator`。
+- **句子**：常见于翻译以及生成伪代码、命令行任务中，主要包括 Flores, Summscreen, Govrepcrs, Iwdlt2017 数据集等等，评估标准一般使用 BLEU(Bilingual Evaluation Understudy)--`BleuEvaluator`。
+- **段落**：常见于文本摘要生成的任务，常用的数据集主要包括 Lcsts, TruthfulQA, Xsum 数据集等等，评估标准一般使用 ROUGE（Recall-Oriented Understudy for Gisting Evaluation）--`RougeEvaluator`。
+- **代码**：常见于代码生成的任务，常用的数据集主要包括 Humaneval，MBPP 数据集等等，评估标准一般使用执行通过率以及 `pass@k`，目前 Opencompass 支持的有`MBPPEvaluator`、`HumanEvalEvaluator`。
+
+还有一类**打分类型**评测任务没有标准答案，比如评判一个模型的输出是否存在有毒，可以直接使用相关 API 服务进行打分，目前支持的有 `ToxicEvaluator`，目前有 realtoxicityprompts 数据集使用此评测方式。
+
+## 已支持评估指标
+
+目前 OpenCompass 中，常用的 Evaluator 主要放在 [`opencompass/openicl/icl_evaluator`](https://github.com/open-compass/opencompass/tree/main/opencompass/openicl/icl_evaluator)文件夹下， 还有部分数据集特有指标的放在 [`opencompass/datasets`](https://github.com/open-compass/opencompass/tree/main/opencompass/datasets) 的部分文件中。以下是汇总：
+
+| 评估指标              | 评估策略             | 常用后处理方式              | 数据集                                                               |
+| --------------------- | -------------------- | --------------------------- | -------------------------------------------------------------------- |
+| `ACCEvaluator`        | 正确率               | `first_capital_postprocess` | agieval, ARC, bbh, mmlu, ceval, commonsenseqa, crowspairs, hellaswag |
+| `EMEvaluator`         | 匹配率               | None, dataset_specification | drop, CLUE_CMRC, CLUE_DRCD                                           |
+| `BleuEvaluator`       | BLEU                 | None, `flores`              | flores, iwslt2017, summscreen, govrepcrs                             |
+| `RougeEvaluator`      | ROUGE                | None, dataset_specification | truthfulqa, Xsum, XLSum                                              |
+| `JiebaRougeEvaluator` | ROUGE                | None, dataset_specification | lcsts                                                                |
+| `HumanEvalEvaluator`  | pass@k               | `humaneval_postprocess`     | humaneval_postprocess                                                |
+| `MBPPEvaluator`       | 执行通过率           | None                        | mbpp                                                                 |
+| `ToxicEvaluator`      | PerspectiveAPI       | None                        | realtoxicityprompts                                                  |
+| `AGIEvalEvaluator`    | 正确率               | None                        | agieval                                                              |
+| `AUCROCEvaluator`     | AUC-ROC              | None                        | jigsawmultilingual, civilcomments                                    |
+| `MATHEvaluator`       | 正确率               | `math_postprocess`          | math                                                                 |
+| `MccEvaluator`        | Matthews Correlation | None                        | --                                                                   |
+| `SquadEvaluator`      | F1-scores            | None                        | --                                                                   |
+
+## 如何配置
+
+评估标准配置一般放在数据集配置文件中，最终的 xxdataset_eval_cfg 会传给 `dataset.infer_cfg` 作为实例化的一个参数。
+
+下面是 `govrepcrs_eval_cfg` 的定义， 具体可查看 [configs/datasets/govrepcrs](https://github.com/open-compass/opencompass/tree/main/configs/datasets/govrepcrs)。
+
+```python
+from opencompass.openicl.icl_evaluator import BleuEvaluator
+from opencompass.datasets import GovRepcrsDataset
+from opencompass.utils.text_postprocessors import general_cn_postprocess
+
+govrepcrs_reader_cfg = dict(.......)
+govrepcrs_infer_cfg = dict(.......)
+
+# 评估指标的配置
+govrepcrs_eval_cfg = dict(
+    evaluator=dict(type=BleuEvaluator),            # 使用常用翻译的评估器BleuEvaluator
+    pred_role='BOT',                               # 接受'BOT' 角色的输出
+    pred_postprocessor=dict(type=general_cn_postprocess),      # 预测结果的后处理
+    dataset_postprocessor=dict(type=general_cn_postprocess))   # 数据集标准答案的后处理
+
+govrepcrs_datasets = [
+    dict(
+        type=GovRepcrsDataset,                 # 数据集类名
+        path='./data/govrep/',                 # 数据集路径
+        abbr='GovRepcrs',                      # 数据集别名
+        reader_cfg=govrepcrs_reader_cfg,       # 数据集读取配置文件，配置其读取的split，列等
+        infer_cfg=govrepcrs_infer_cfg,         # 数据集推理的配置文件，主要 prompt 相关
+        eval_cfg=govrepcrs_eval_cfg)           # 数据集结果的评估配置文件，评估标准以及前后处理。
+]
+```
--- a/docs/zh_cn/user_guides/models.md
+++ b/docs/zh_cn/user_guides/models.md
+# 准备模型
+
+要在 OpenCompass 中支持新模型的评测，有以下几种方式：
+
+1. 基于 HuggingFace 的模型
+2. 基于 API 的模型
+3. 自定义模型
+
+## 基于 HuggingFace 的模型
+
+在 OpenCompass 中，我们支持直接从 Huggingface 的 `AutoModel.from_pretrained` 和
+`AutoModelForCausalLM.from_pretrained` 接口构建评测模型。如果需要评测的模型符合 HuggingFace 模型通常的生成接口，
+则不需要编写代码，直接在配置文件中指定相关配置即可。
+
+如下，为一个示例的 HuggingFace 模型配置文件：
+
+```python
+# 使用 `HuggingFace` 评测 HuggingFace 中 AutoModel 支持的模型
+# 使用 `HuggingFaceCausalLM` 评测 HuggingFace 中 AutoModelForCausalLM 支持的模型
+from opencompass.models import HuggingFaceCausalLM
+
+models = [
+    dict(
+        type=HuggingFaceCausalLM,
+        # 以下参数为 `HuggingFaceCausalLM` 的初始化参数
+        path='huggyllama/llama-7b',
+        tokenizer_path='huggyllama/llama-7b',
+        tokenizer_kwargs=dict(padding_side='left', truncation_side='left'),
+        max_seq_len=2048,
+        batch_padding=False,
+        # 以下参数为各类模型都有的参数，非 `HuggingFaceCausalLM` 的初始化参数
+        abbr='llama-7b',            # 模型简称，用于结果展示
+        max_out_len=100,            # 最长生成 token 数
+        batch_size=16,              # 批次大小
+        run_cfg=dict(num_gpus=1),   # 运行配置，用于指定资源需求
+    )
+]
+```
+
+对以上一些参数的说明：
+
+- `batch_padding=False`：如为 False，会对一个批次的样本进行逐一推理；如为 True，则会对一个批次的样本进行填充，
+  组成一个 batch 进行推理。对于部分模型，这样的填充可能导致意料之外的结果；如果评测的模型支持样本填充，
+  则可以将该参数设为 True，以加速推理。
+- `padding_side='left'`：在左侧进行填充，因为不是所有模型都支持填充，在右侧进行填充可能会干扰模型的输出。
+- `truncation_side='left'`：在左侧进行截断，评测输入的 prompt 通常包括上下文样本 prompt 和输入 prompt 两部分，
+  如果截断右侧的输入 prompt，可能导致生成模型的输入和预期格式不符，因此如有必要，应对左侧进行截断。
+
+在评测时，OpenCompass 会使用配置文件中的 `type` 与各个初始化参数实例化用于评测的模型，
+其他参数则用于推理及总结等过程中，与模型相关的配置。例如上述配置文件，我们会在评测时进行如下实例化过程：
+
+```python
+model = HuggingFaceCausalLM(
+    path='huggyllama/llama-7b',
+    tokenizer_path='huggyllama/llama-7b',
+    tokenizer_kwargs=dict(padding_side='left', truncation_side='left'),
+    max_seq_len=2048,
+)
+```
+
+## 基于 API 的模型
+
+OpenCompass 目前支持以下基于 API 的模型推理：
+
+- OpenAI（`opencompass.models.OpenAI`）
+- ChatGLM@智谱清言 (`opencompass.models.ZhiPuAI`)
+- ABAB-Chat@MiniMax (`opencompass.models.MiniMax`)
+- XunFei@科大讯飞 (`opencompass.models.XunFei`)
+
+以下，我们以 OpenAI 的配置文件为例，模型如何在配置文件中使用基于 API 的模型。
+
+```python
+from opencompass.models import OpenAI
+
+models = [
+    dict(
+        type=OpenAI,                             # 使用 OpenAI 模型
+        # 以下为 `OpenAI` 初始化参数
+        path='gpt-4',                            # 指定模型类型
+        key='YOUR_OPENAI_KEY',                   # OpenAI API Key
+        max_seq_len=2048,                        # 最大输入长度
+        # 以下参数为各类模型都有的参数，非 `OpenAI` 的初始化参数
+        abbr='GPT-4',                            # 模型简称
+        run_cfg=dict(num_gpus=0),                # 资源需求（不需要 GPU）
+        max_out_len=512,                         # 最长生成长度
+        batch_size=1,                            # 批次大小
+    ),
+]
+```
+
+我们也提供了API模型的评测示例，请参考
+
+```bash
+configs
+├── eval_zhipu.py
+├── eval_xunfei.py
+└── eval_minimax.py
+```
+
+## 自定义模型
+
+如果以上方式无法支持你的模型评测需求，请参考 [支持新模型](../advanced_guides/new_model.md) 在 OpenCompass 中增添新的模型支持。
--- a/docs/zh_cn/user_guides/summarizer.md
+++ b/docs/zh_cn/user_guides/summarizer.md
+# 结果展示
+
+在评测完成后，评测的结果需要被打印到屏幕或者被保存下来，该过程是由 summarizer 控制的。
+
+```{note}
+如果 summarizer 出现在了 config 中，则评测结果输出会按照下述逻辑进行。
+如果 summarizer 没有出现在 config 中，则评测结果会按照 `dataset` 中出现的顺序进行输出。
+```
+
+## 样例
+
+一个典型的 summerizer 配置文件如下：
+
+```python
+summarizer = dict(
+    dataset_abbrs = [
+        'race',
+        'race-high',
+        'race-middle',
+    ],
+    summary_groups=[
+        {'name': 'race', 'subsets': ['race-high', 'race-middle']},
+    ]
+)
+```
+
+其输出结果如下：
+
+```text
+dataset      version    metric         mode      internlm-7b-hf
+-----------  ---------  -------------  ------  ----------------
+race         -          naive_average  ppl                76.23
+race-high    0c332f     accuracy       ppl                74.53
+race-middle  0c332f     accuracy       ppl                77.92
+```
+
+summarizer 会以 config 中的 `models`, `datasets` 为全集，去尝试读取 `{work_dir}/results/` 路径下的评测分数，并按照 `summarizer.dataset_abbrs` 列表的顺序进行展示。另外，summarizer 会尝试通过 `summarizer.summary_groups` 来进行一些汇总指标的计算。当且仅当 `subsets` 中的值都存在时，对应的 `name` 指标才会生成，这也就是说，若有部分数字缺失，则这个汇总指标也是会缺失的。若分数无法通过上述两种方式被获取到，则 summarizer 会在表格中对应项处使用 `-` 进行表示。
+
+此外，输出结果是有多列的：
+
+- `dataset` 列与 `summarizer.dataset_abbrs` 配置一一对应
+- `version` 列是这个数据集的 hash 值，该 hash 值会考虑该数据集模板的评测方式、提示词、输出长度限制等信息。用户可通过该列信息确认两份评测结果是否可比
+- `metric` 列是指这个指标的评测方式，具体说明见 [metrics](./metrics.md)
+- `mode` 列是指这个推理结果的获取方式，可能的值有 `ppl` / `gen`。对于 `summarizer.summary_groups` 的项，若被 `subsets` 的获取方式都一致，则其值也跟 `subsets` 一致，否则即为 `mixed`
+- 其后若干列，一列代表一个模型
+
+## 完整字段说明
+
+summarizer 字段说明如下
+
+- `dataset_abbrs`: (list，可选) 展示列表项。若该项省略，则会输出全部评测结果。
+- `summary_groups`: (list，可选) 汇总指标配置。
+
+`summary_groups` 中的字段说明如下：
+
+- `name`: (str) 汇总指标的名称。
+- `subsets`: (list) 被汇总指标的名称。注意它不止可以是原始的 `dataset_abbr`，也可以是另一个汇总指标的名称。
+- `weights`: (list，可选) 被汇总指标的权重。若该项省略，则默认使用不加权的求平均方法。
+
+注意，我们在 `configs/summarizers/groups` 路径下存放了 MMLU, C-Eval 等数据集的评测结果汇总，建议优先考虑使用。
--- a/examples/eval_OlympiadBench.py
+++ b/examples/eval_OlympiadBench.py
+from mmengine.config import read_base
+
+with read_base():
+    from opencompass.configs.datasets.OlympiadBench.OlympiadBench_0shot_gen_be8b13 import olympiadbench_datasets
+
+    from opencompass.configs.models.qwen2_5.lmdeploy_qwen2_5_7b_instruct import models as lmdeploy_qwen2_5_7b_instruct_model
+
+    from opencompass.configs.summarizers.OlympiadBench import summarizer
+
+
+datasets = sum([v for k, v in locals().items() if k.endswith('_datasets') or k == 'datasets'], [])
+models = sum([v for k, v in locals().items() if k.endswith('_model')], [])
+
+from opencompass.runners import LocalRunner
+from opencompass.partitioners import NaivePartitioner, NumWorkerPartitioner
+from opencompass.tasks import OpenICLInferTask, OpenICLEvalTask
+
+infer = dict(
+    partitioner=dict(type=NumWorkerPartitioner, num_worker=8),
+    runner=dict(
+        type=LocalRunner,
+        max_num_workers=8,
+        task=dict(type=OpenICLInferTask)
+    ),
+)
+
+eval = dict(
+    partitioner=dict(type=NaivePartitioner, n=10),
+    runner=dict(
+        type=LocalRunner,
+        max_num_workers=256,
+        task=dict(type=OpenICLEvalTask)
+    ),
+)
+
+work_dir = 'outputs/debug/OlympiadBench'
--- a/examples/eval_PMMEval.py
+++ b/examples/eval_PMMEval.py
+from mmengine.config import read_base
+
+from opencompass.models import HuggingFacewithChatTemplate
+
+with read_base():
+    # from opencompass.configs.datasets.PMMEval.flores_gen import PMMEval_flores_datasets
+    # from opencompass.configs.datasets.PMMEval.humanevalxl_gen import PMMEval_HumanEvalXL_datasets
+    # from opencompass.configs.datasets.PMMEval.mgsm_gen import PMMEval_MGSM_datasets
+    # from opencompass.configs.datasets.PMMEval.mhellaswag_gen import PMMEval_MHellaswag_datasets
+    # from opencompass.configs.datasets.PMMEval.mifeval_gen import PMMEval_MIFEval_datasets
+    # from opencompass.configs.datasets.PMMEval.mlogiqa_gen import PMMEval_MLogiQA_datasets
+    # from opencompass.configs.datasets.PMMEval.mmmlu_gen import PMMEval_MMMLU_datasets
+    # from opencompass.configs.datasets.PMMEval.xnli import PMMEval_XNLI_datasets
+    from opencompass.configs.datasets.PMMEval.pmmeval_gen import \
+        PMMEval_datasets
+    from opencompass.configs.models.qwen2_5.lmdeploy_qwen2_5_7b_instruct import \
+        models
+    from opencompass.configs.summarizers.PMMEval import summarizer
+
+# datasets = PMMEval_flores_datasets
+# datasets = PMMEval_HumanEvalXL_datasets
+# datasets = PMMEval_MGSM_datasets
+# datasets = PMMEval_MHellaswag_datasets
+# datasets = PMMEval_MIFEval_datasets
+# datasets = PMMEval_MLogiQA_datasets
+# datasets = PMMEval_MMMLU_datasets
+# datasets = PMMEval_XNLI_datasets
+
+datasets = PMMEval_datasets
--- a/examples/eval_TheoremQA.py
+++ b/examples/eval_TheoremQA.py
+from mmengine.config import read_base
+
+with read_base():
+    from opencompass.configs.datasets.TheoremQA.TheoremQA_5shot_gen_6f0af8 import \
+        TheoremQA_datasets as datasets
+    from opencompass.configs.models.hf_internlm.hf_internlm2_20b import \
+        models as hf_internlm2_20b_model
+    from opencompass.configs.models.hf_internlm.hf_internlm2_math_20b import \
+        models as hf_internlm2_math_20b_model
+    from opencompass.configs.models.mistral.hf_mistral_7b_v0_1 import \
+        models as hf_mistral_7b_v0_1_model
+    from opencompass.configs.models.mistral.hf_mistral_7b_v0_2 import \
+        models as hf_mistral_7b_v0_2_model
+
+models = sum([v for k, v in locals().items() if k.endswith('_model')], [])
+
+work_dir = 'outputs/TheoremQA-5shot'
+
+# dataset    version    metric    mode      mistral-7b-v0.1-hf    mistral-7b-v0.2-hf    internlm2-20b-hf    internlm2-math-20b-hf
+# ---------  ---------  --------  ------  --------------------  --------------------  ------------------  -----------------------
+# TheoremQA  6f0af8     score     gen                    18.00                 16.75               25.87                    30.88
--- a/examples/eval_academic_leaderboard_202407.py
+++ b/examples/eval_academic_leaderboard_202407.py
+import os.path as osp
+
+from mmengine.config import read_base
+
+from opencompass.partitioners import NaivePartitioner, NumWorkerPartitioner
+from opencompass.runners import LocalRunner
+from opencompass.tasks import OpenICLEvalTask, OpenICLInferTask
+
+#######################################################################
+#                          PART 0  Essential Configs                  #
+#######################################################################
+with read_base():
+    # Datasets Part
+    ## Core Set
+    # ## Examination
+    # ## Reasoning
+    from opencompass.configs.datasets.bbh.bbh_gen_4a31fa import bbh_datasets
+    from opencompass.configs.datasets.cmmlu.cmmlu_0shot_cot_gen_305931 import \
+        cmmlu_datasets
+    from opencompass.configs.datasets.gpqa.gpqa_openai_simple_evals_gen_5aeece import \
+        gpqa_datasets
+    # ## Coding
+    from opencompass.configs.datasets.humaneval.humaneval_gen_8e312c import \
+        humaneval_datasets
+    # ## Instruction Following
+    from opencompass.configs.datasets.IFEval.IFEval_gen_3321a3 import \
+        ifeval_datasets
+    # ## Math
+    from opencompass.configs.datasets.math.math_0shot_gen_393424 import \
+        math_datasets
+    from opencompass.configs.datasets.mmlu.mmlu_openai_simple_evals_gen_b618ea import \
+        mmlu_datasets
+    from opencompass.configs.datasets.mmlu_pro.mmlu_pro_0shot_cot_gen_08c1de import \
+        mmlu_pro_datasets
+    from opencompass.configs.summarizers.groups.bbh import bbh_summary_groups
+    from opencompass.configs.summarizers.groups.cmmlu import \
+        cmmlu_summary_groups
+    # Summarizer
+    from opencompass.configs.summarizers.groups.mmlu import mmlu_summary_groups
+    from opencompass.configs.summarizers.groups.mmlu_pro import \
+        mmlu_pro_summary_groups
+
+    # Model List
+    # from opencompass.configs.models.qwen.lmdeploy_qwen2_1_5b_instruct import models as lmdeploy_qwen2_1_5b_instruct_model
+    # from opencompass.configs.models.hf_internlm.lmdeploy_internlm2_5_7b_chat import models as hf_internlm2_5_7b_chat_model
+    # from opencompass.configs.models.openbmb.hf_minicpm_2b_sft_bf16 import models as hf_minicpm_2b_sft_bf16_model
+    # from opencompass.configs.models.yi.hf_yi_1_5_6b_chat import models as hf_yi_1_5_6b_chat_model
+    # from opencompass.configs.models.gemma.hf_gemma_2b_it import models as hf_gemma_2b_it_model
+    # from opencompass.configs.models.yi.hf_yi_1_5_34b_chat import models as hf_yi_1_5_34b_chat_model
+
+#######################################################################
+#                          PART 1  Datasets List                      #
+#######################################################################
+# datasets list for evaluation
+datasets = sum((v for k, v in locals().items() if k.endswith('_datasets')), [])
+
+#######################################################################
+#                       PART 2  Datset Summarizer                     #
+#######################################################################
+# with read_base():
+
+core_summary_groups = [
+    {
+        'name':
+        'core_average',
+        'subsets': [
+            ['mmlu', 'accuracy'],
+            ['mmlu_pro', 'accuracy'],
+            # ['cmmlu', 'naive_average'],
+            ['cmmlu', 'accuracy'],
+            ['bbh', 'score'],
+            ['math', 'accuracy'],
+            ['openai_humaneval', 'humaneval_pass@1'],
+            ['GPQA_diamond', 'accuracy'],
+            ['IFEval', 'Prompt-level-strict-accuracy'],
+        ],
+    },
+]
+
+summarizer = dict(
+    dataset_abbrs=[
+        ['core_average', 'naive_average'],
+        ['mmlu', 'accuracy'],
+        ['mmlu_pro', 'accuracy'],
+        ['cmmlu', 'accuracy'],
+        ['bbh', 'score'],
+        ['math', 'accuracy'],
+        ['openai_humaneval', 'humaneval_pass@1'],
+        ['GPQA_diamond', 'accuracy'],
+        ['IFEval', 'Prompt-level-strict-accuracy'],
+        '',
+        ['mmlu', 'accuracy'],
+        ['mmlu-stem', 'accuracy'],
+        ['mmlu-social-science', 'accuracy'],
+        ['mmlu-humanities', 'accuracy'],
+        ['mmlu-other', 'accuracy'],
+        '',
+        ['mmlu_pro', 'accuracy'],
+        ['mmlu_pro_math', 'accuracy'],
+        ['mmlu_pro_physics', 'accuracy'],
+        ['mmlu_pro_chemistry', 'accuracy'],
+        ['mmlu_pro_law', 'accuracy'],
+        ['mmlu_pro_engineering', 'accuracy'],
+        ['mmlu_pro_other', 'accuracy'],
+        ['mmlu_pro_economics', 'accuracy'],
+        ['mmlu_pro_health', 'accuracy'],
+        ['mmlu_pro_psychology', 'accuracy'],
+        ['mmlu_pro_business', 'accuracy'],
+        ['mmlu_pro_biology', 'accuracy'],
+        ['mmlu_pro_philosophy', 'accuracy'],
+        ['mmlu_pro_computer_science', 'accuracy'],
+        ['mmlu_pro_history', 'accuracy'],
+        '',
+        ['cmmlu', 'accuracy'],
+        ['cmmlu-stem', 'accuracy'],
+        ['cmmlu-social-science', 'accuracy'],
+        ['cmmlu-humanities', 'accuracy'],
+        ['cmmlu-other', 'accuracy'],
+        ['cmmlu-china-specific', 'accuracy'],
+        '',
+        ['bbh', 'extract_rate'],
+        ['math', 'extract_rate'],
+        # ['openai_humaneval', 'extract_rate'],
+        ['GPQA_diamond', 'extract_rate'],
+        # ['IFEval', 'extract_rate'],
+        '',
+        ['mmlu', 'extract_rate'],
+        ['mmlu-stem', 'extract_rate'],
+        ['mmlu-social-science', 'extract_rate'],
+        ['mmlu-humanities', 'extract_rate'],
+        ['mmlu-other', 'extract_rate'],
+        '',
+        ['mmlu_pro', 'extract_rate'],
+        ['mmlu_pro_math', 'extract_rate'],
+        ['mmlu_pro_physics', 'extract_rate'],
+        ['mmlu_pro_chemistry', 'extract_rate'],
+        ['mmlu_pro_law', 'extract_rate'],
+        ['mmlu_pro_engineering', 'extract_rate'],
+        ['mmlu_pro_other', 'extract_rate'],
+        ['mmlu_pro_economics', 'extract_rate'],
+        ['mmlu_pro_health', 'extract_rate'],
+        ['mmlu_pro_psychology', 'extract_rate'],
+        ['mmlu_pro_business', 'extract_rate'],
+        ['mmlu_pro_biology', 'extract_rate'],
+        ['mmlu_pro_philosophy', 'extract_rate'],
+        ['mmlu_pro_computer_science', 'extract_rate'],
+        ['mmlu_pro_history', 'extract_rate'],
+        '',
+        ['cmmlu', 'extract_rate'],
+        ['cmmlu-stem', 'extract_rate'],
+        ['cmmlu-social-science', 'extract_rate'],
+        ['cmmlu-humanities', 'extract_rate'],
+        ['cmmlu-other', 'extract_rate'],
+        ['cmmlu-china-specific', 'extract_rate'],
+    ],
+    summary_groups=sum(
+        [v for k, v in locals().items() if k.endswith('_summary_groups')], []),
+)
+
+#######################################################################
+#                        PART 3  Models  List                         #
+#######################################################################
+
+models = sum([v for k, v in locals().items() if k.endswith('_model')], [])
+
+#######################################################################
+#                 PART 4  Inference/Evaluation Configuaration         #
+#######################################################################
+
+# Local Runner
+infer = dict(
+    partitioner=dict(type=NumWorkerPartitioner, num_worker=8),
+    runner=dict(
+        type=LocalRunner,
+        max_num_workers=16,
+        retry=0,  # Modify if needed
+        task=dict(type=OpenICLInferTask)),
+)
+
+# eval with local runner
+eval = dict(
+    partitioner=dict(type=NaivePartitioner, n=10),
+    runner=dict(type=LocalRunner,
+                max_num_workers=16,
+                task=dict(type=OpenICLEvalTask)),
+)
+
+#######################################################################
+#                      PART 5  Utils Configuaration                   #
+#######################################################################
+base_exp_dir = 'outputs/corebench_v1_9/'
+work_dir = osp.join(base_exp_dir, 'chat_objective')
--- a/examples/eval_academic_leaderboard_202412.py
+++ b/examples/eval_academic_leaderboard_202412.py
+import os.path as osp
+
+from mmengine.config import read_base
+
+from opencompass.partitioners import NaivePartitioner, NumWorkerPartitioner
+from opencompass.runners import LocalRunner, VOLCRunner
+from opencompass.tasks import OpenICLEvalTask, OpenICLInferTask
+
+#######################################################################
+#                          PART 0  Essential Configs                  #
+#######################################################################
+with read_base():
+    # Datasets Part
+    # Knowledge
+    # Math
+    from opencompass.configs.datasets.aime2024.aime2024_gen_6e39a4 import \
+        aime2024_datasets
+    from opencompass.configs.datasets.bbh.bbh_0shot_nocot_gen_925fc4 import \
+        bbh_datasets
+    # General Reasoning
+    from opencompass.configs.datasets.gpqa.gpqa_openai_simple_evals_gen_5aeece import \
+        gpqa_datasets
+    from opencompass.configs.datasets.humaneval.humaneval_openai_sample_evals_gen_dcae0e import \
+        humaneval_datasets
+    # Instruction Following
+    from opencompass.configs.datasets.IFEval.IFEval_gen_353ae7 import \
+        ifeval_datasets
+    from opencompass.configs.datasets.livecodebench.livecodebench_gen_a4f90b import \
+        LCBCodeGeneration_dataset
+    from opencompass.configs.datasets.math.math_prm800k_500_0shot_cot_gen import \
+        math_datasets
+    from opencompass.configs.datasets.mmlu_pro.mmlu_pro_0shot_cot_gen_08c1de import \
+        mmlu_pro_datasets
+    # Model List
+    from opencompass.configs.models.hf_internlm.lmdeploy_internlm2_5_7b_chat import \
+        models as hf_internlm2_5_7b_chat_model
+    # Summary Groups
+    from opencompass.configs.summarizers.groups.bbh import bbh_summary_groups
+    from opencompass.configs.summarizers.groups.mmlu_pro import \
+        mmlu_pro_summary_groups
+
+#######################################################################
+#                          PART 1  Datasets List                      #
+#######################################################################
+# datasets list for evaluation
+# Only take LCB generation for evaluation
+datasets = sum((v for k, v in locals().items() if k.endswith('_datasets')),
+               []) + [LCBCodeGeneration_dataset]
+
+#######################################################################
+#                       PART 2  Datset Summarizer                     #
+#######################################################################
+
+core_summary_groups = [
+    {
+        'name':
+        'core_average',
+        'subsets': [
+            ['IFEval', 'Prompt-level-strict-accuracy'],
+            ['bbh', 'naive_average'],
+            ['math_prm800k_500', 'accuracy'],
+            ['aime2024', 'accuracy'],
+            ['GPQA_diamond', 'accuracy'],
+            ['mmlu_pro', 'naive_average'],
+            ['openai_humaneval', 'humaneval_pass@1'],
+            ['lcb_code_generation', 'pass@1'],
+        ],
+    },
+]
+
+summarizer = dict(
+    dataset_abbrs=[
+        ['core_average', 'naive_average'],
+        '',
+        'Instruction Following',
+        ['IFEval', 'Prompt-level-strict-accuracy'],
+        '',
+        'General Reasoning',
+        ['bbh', 'naive_average'],
+        ['GPQA_diamond', 'accuracy'],
+        '',
+        'Math Calculation',
+        ['math_prm800k_500', 'accuracy'],
+        ['aime2024', 'accuracy'],
+        '',
+        'Knowledge',
+        ['mmlu_pro', 'naive_average'],
+        '',
+        'Code',
+        ['openai_humaneval', 'humaneval_pass@1'],
+        ['lcb_code_generation', 'pass@1'],
+    ],
+    summary_groups=sum(
+        [v for k, v in locals().items() if k.endswith('_summary_groups')], []),
+)
+
+#######################################################################
+#                        PART 3  Models  List                         #
+#######################################################################
+
+models = sum([v for k, v in locals().items() if k.endswith('_model')], [])
+
+#######################################################################
+#                 PART 4  Inference/Evaluation Configuaration         #
+#######################################################################
+
+# Local Runner
+infer = dict(
+    partitioner=dict(type=NumWorkerPartitioner, num_worker=8),
+    runner=dict(
+        type=LocalRunner,
+        max_num_workers=16,
+        retry=0,  # Modify if needed
+        task=dict(type=OpenICLInferTask),
+    ),
+)
+
+# eval with local runner
+eval = dict(
+    partitioner=dict(type=NaivePartitioner, n=10),
+    runner=dict(type=LocalRunner,
+                max_num_workers=16,
+                task=dict(type=OpenICLEvalTask)),
+)
+
+#######################################################################
+#                      PART 5  Utils Configuaration                   #
+#######################################################################
+work_dir = './outputs/oc_academic_202412'
--- a/examples/eval_academic_leaderboard_202502.py
+++ b/examples/eval_academic_leaderboard_202502.py
+# flake8: noqa
+
+from mmengine.config import read_base
+
+from opencompass.partitioners import NaivePartitioner, NumWorkerPartitioner
+from opencompass.runners import LocalRunner, VOLCRunner
+from opencompass.tasks import OpenICLEvalTask, OpenICLInferTask
+
+#######################################################################
+#                          PART 0  Essential Configs                  #
+#######################################################################
+with read_base():
+    # Datasets Part
+    # Knowledge
+    # Math
+    from opencompass.configs.datasets.aime2024.aime2024_0shot_nocot_genericllmeval_academic_gen import \
+        aime2024_datasets
+    from opencompass.configs.datasets.bbh.bbh_0shot_nocot_academic_gen import \
+        bbh_datasets
+    # General Reasoning
+    from opencompass.configs.datasets.gpqa.gpqa_openai_simple_evals_gen_5aeece import \
+        gpqa_datasets
+    from opencompass.configs.datasets.humaneval.humaneval_openai_sample_evals_gen_dcae0e import \
+        humaneval_datasets
+    # Instruction Following
+    from opencompass.configs.datasets.IFEval.IFEval_gen_353ae7 import \
+        ifeval_datasets
+    from opencompass.configs.datasets.livecodebench.livecodebench_gen_a4f90b import \
+        LCBCodeGeneration_dataset
+    from opencompass.configs.datasets.math.math_prm800k_500_0shot_cot_gen import \
+        math_datasets
+    from opencompass.configs.datasets.mmlu_pro.mmlu_pro_0shot_cot_gen_08c1de import \
+        mmlu_pro_datasets
+    # Model List
+    from opencompass.configs.models.hf_internlm.lmdeploy_internlm2_5_7b_chat import \
+        models as hf_internlm2_5_7b_chat_model
+    # Summary Groups
+    from opencompass.configs.summarizers.groups.bbh import bbh_summary_groups
+    from opencompass.configs.summarizers.groups.mmlu_pro import \
+        mmlu_pro_summary_groups
+
+#######################################################################
+#                          PART 1  Datasets List                      #
+#######################################################################
+# datasets list for evaluation
+# Only take LCB generation for evaluation
+datasets = sum((v for k, v in locals().items() if k.endswith('_datasets')),
+               []) + [LCBCodeGeneration_dataset]
+
+# LLM judge config: using LLM to evaluate predictions
+judge_cfg = dict()
+for dataset in datasets:
+    dataset['infer_cfg']['inferencer']['max_out_len'] = 32768
+    if 'judge_cfg' in dataset['eval_cfg']['evaluator']:
+        dataset['eval_cfg']['evaluator']['judge_cfg'] = judge_cfg
+
+
+#######################################################################
+#                       PART 2  Datset Summarizer                     #
+#######################################################################
+
+core_summary_groups = [
+    {
+        'name':
+        'core_average',
+        'subsets': [
+            ['IFEval', 'Prompt-level-strict-accuracy'],
+            ['bbh', 'naive_average'],
+            ['math_prm800k_500', 'accuracy'],
+            ['aime2024', 'accuracy'],
+            ['GPQA_diamond', 'accuracy'],
+            ['mmlu_pro', 'naive_average'],
+            ['openai_humaneval', 'humaneval_pass@1'],
+            ['lcb_code_generation', 'pass@1'],
+        ],
+    },
+]
+
+summarizer = dict(
+    dataset_abbrs=[
+        ['core_average', 'naive_average'],
+        '',
+        'Instruction Following',
+        ['IFEval', 'Prompt-level-strict-accuracy'],
+        '',
+        'General Reasoning',
+        ['bbh', 'naive_average'],
+        ['GPQA_diamond', 'accuracy'],
+        '',
+        'Math Calculation',
+        ['math_prm800k_500', 'accuracy'],
+        ['aime2024', 'accuracy'],
+        '',
+        'Knowledge',
+        ['mmlu_pro', 'naive_average'],
+        '',
+        'Code',
+        ['openai_humaneval', 'humaneval_pass@1'],
+        ['lcb_code_generation', 'pass@1'],
+    ],
+    summary_groups=sum(
+        [v for k, v in locals().items() if k.endswith('_summary_groups')], []),
+)
+
+#######################################################################
+#                        PART 3  Models  List                         #
+#######################################################################
+
+models = sum([v for k, v in locals().items() if k.endswith('_model')], [])
+
+#######################################################################
+#                 PART 4  Inference/Evaluation Configuaration         #
+#######################################################################
+
+# Local Runner
+infer = dict(
+    partitioner=dict(type=NumWorkerPartitioner, num_worker=8),
+    runner=dict(
+        type=LocalRunner,
+        max_num_workers=16,
+        retry=0,  # Modify if needed
+        task=dict(type=OpenICLInferTask),
+    ),
+)
+
+# eval with local runner
+eval = dict(
+    partitioner=dict(type=NaivePartitioner, n=10),
+    runner=dict(type=LocalRunner,
+                max_num_workers=16,
+                task=dict(type=OpenICLEvalTask)),
+)
+
+#######################################################################
+#                      PART 5  Utils Configuaration                   #
+#######################################################################
+work_dir = './outputs/oc_academic_202502'
--- a/examples/eval_alaya.py
+++ b/examples/eval_alaya.py
+from mmengine.config import read_base
+
+with read_base():
+    from opencompass.configs.datasets.agieval.agieval_gen import \
+        agieval_datasets
+    from opencompass.configs.datasets.bbh.bbh_gen import bbh_datasets
+    from opencompass.configs.datasets.ceval.ceval_gen import ceval_datasets
+    from opencompass.configs.datasets.cmmlu.cmmlu_gen import cmmlu_datasets
+    from opencompass.configs.datasets.mmlu.mmlu_gen import mmlu_datasets
+    from opencompass.configs.models.alaya.alaya import models
+
+datasets = [
+    *bbh_datasets, *ceval_datasets, *cmmlu_datasets, *agieval_datasets,
+    *mmlu_datasets
+]
--- a/examples/eval_api_demo.py
+++ b/examples/eval_api_demo.py
+from mmengine.config import read_base
+
+with read_base():
+    from opencompass.configs.datasets.demo.demo_gsm8k_chat_gen import \
+        gsm8k_datasets
+    from opencompass.configs.datasets.demo.demo_math_chat_gen import \
+        math_datasets
+    from opencompass.configs.models.openai.gpt_4o_2024_05_13 import \
+        models as gpt4
+
+datasets = gsm8k_datasets + math_datasets
+models = gpt4
--- a/examples/eval_attack.py
+++ b/examples/eval_attack.py
+from mmengine.config import read_base
+
+from opencompass.partitioners import NaivePartitioner
+from opencompass.runners import LocalRunner
+from opencompass.tasks import OpenICLAttackTask
+
+with read_base():
+    # choose a list of datasets
+    from opencompass.configs.datasets.promptbench.promptbench_wnli_gen_50662f import \
+        wnli_datasets
+    from opencompass.configs.models.qwen.hf_qwen2_1_5b import models
+
+datasets = wnli_datasets
+
+# Please run whole dataset at a time, aka use `NaivePartitioner` only
+# Please use `OpenICLAttackTask` if want to perform attack experiment
+infer = dict(
+    partitioner=dict(type=NaivePartitioner),
+    runner=dict(type=LocalRunner,
+                max_num_workers=8,
+                task=dict(type=OpenICLAttackTask)),
+)
+
+attack = dict(
+    attack='textfooler',
+    query_budget=100,
+    prompt_topk=1,
+)
--- a/examples/eval_babilong.py
+++ b/examples/eval_babilong.py
+from mmengine.config import read_base
+
+with read_base():
+    # Models
+    # Datasets
+    from opencompass.configs.datasets.babilong.babilong_0k_gen import \
+        babiLong_0k_datasets
+    from opencompass.configs.datasets.babilong.babilong_4k_gen import \
+        babiLong_4k_datasets
+    from opencompass.configs.datasets.babilong.babilong_16k_gen import \
+        babiLong_16k_datasets
+    from opencompass.configs.datasets.babilong.babilong_32k_gen import \
+        babiLong_32k_datasets
+    from opencompass.configs.datasets.babilong.babilong_128k_gen import \
+        babiLong_128k_datasets
+    from opencompass.configs.datasets.babilong.babilong_256k_gen import \
+        babiLong_256k_datasets
+    from opencompass.configs.models.hf_internlm.lmdeploy_internlm2_5_7b_chat import \
+        models as lmdeploy_internlm2_5_7b_chat_model
+    from opencompass.configs.models.hf_llama.lmdeploy_llama3_1_8b_instruct import \
+        models as lmdeploy_llama3_1_8b_instruct_model
+    from opencompass.configs.models.mistral.lmdeploy_ministral_8b_instruct_2410 import \
+        models as lmdeploy_ministral_8b_instruct_2410_model
+    from opencompass.configs.models.qwen2_5.lmdeploy_qwen2_5_7b_instruct import \
+        models as lmdeploy_qwen2_5_7b_instruct_model
+    from opencompass.configs.summarizers.groups.babilong import \
+        babilong_summary_groups
+
+datasets = sum((v for k, v in locals().items() if k.endswith('_datasets')), [])
+
+models = sum([v for k, v in locals().items() if k.endswith('_model')], [])
+for model in models:
+    model['engine_config']['session_len'] = 1024 * 1024
+    model['max_seq_len'] = 1024 * 1024
+    model['engine_config']['tp'] = 4
+    model['run_cfg']['num_gpus'] = 4
+
+summarizer = dict(
+    dataset_abbrs=[
+        'babilong_0k',
+        'babilong_4k',
+        'babilong_16k',
+        'babilong_32k',
+        'babilong_128k',
+        'babilong_256k',
+    ],
+    summary_groups=sum(
+        [v for k, v in locals().items() if k.endswith('_summary_groups')], []),
+)
+
+work_dir = './outputs/babilong'
--- a/examples/eval_base_demo.py
+++ b/examples/eval_base_demo.py
+from mmengine.config import read_base
+
+with read_base():
+    from opencompass.configs.datasets.demo.demo_gsm8k_base_gen import \
+        gsm8k_datasets
+    from opencompass.configs.datasets.demo.demo_math_base_gen import \
+        math_datasets
+    from opencompass.configs.models.hf_internlm.hf_internlm2_1_8b import \
+        models as hf_internlm2_1_8b_models
+    from opencompass.configs.models.qwen.hf_qwen2_1_5b import \
+        models as hf_qwen2_1_5b_models
+
+datasets = gsm8k_datasets + math_datasets
+models = hf_qwen2_1_5b_models + hf_internlm2_1_8b_models
--- a/examples/eval_bluelm_32k_lveval.py
+++ b/examples/eval_bluelm_32k_lveval.py
+from mmengine.config import read_base
+
+with read_base():
+    from opencompass.configs.datasets.lveval.lveval import \
+        LVEval_datasets as datasets
+    from opencompass.configs.models.bluelm.hf_bluelm_7b_chat_32k import models
+    from opencompass.configs.summarizers.lveval import summarizer
+
+models[0]['path'] = '/path/to/your/huggingface_models/BlueLM-7B-Chat-32K'
+models[0][
+    'tokenizer_path'] = '/path/to/your/huggingface_models/BlueLM-7B-Chat-32K'
+models[0]['max_seq_len'] = 32768
+models[0]['generation_kwargs'] = dict(do_sample=False)
+models[0]['mode'] = 'mid'  # truncate in the middle
--- a/examples/eval_charm_mem.py
+++ b/examples/eval_charm_mem.py
+from mmengine.config import read_base
+from opencompassopencompass.configs.models import OpenAI
+
+from opencompass.partitioners.sub_size import SubjectiveSizePartitioner
+from opencompass.runners import LocalRunner
+from opencompass.summarizers import CharmMemSummarizer
+from opencompass.tasks.subjective_eval import SubjectiveEvalTask
+
+with read_base():
+    from opencompass.configs.datasets.CHARM.charm_memory_gen_bbbd53 import \
+        charm_memory_datasets as datasets
+
+    # ------>>>>>> https://arxiv.org/abs/2403.14112
+    # from opencompass.configs.models.openai.gpt_3_5_turbo_1106 import models as gpt_3_5_turbo_1106_model
+    # from opencompass.configs.models.openai.gpt_4_1106_preview import models as gpt_4_1106_preview_model
+    # from opencompass.configs.models.hf_llama.hf_llama2_7b_chat import models as llama2_7b_chat_model
+    # from opencompass.configs.models.hf_llama.hf_llama2_13b_chat import models as llama2_13b_chat_model
+    # from opencompass.configs.models.hf_llama.hf_llama2_70b_chat import models as llama2_70b_chat_model
+    # from opencompass.configs.models.vicuna.hf_vicuna_7b_v15_16k import models as vicuna_7b_v15_16k_model
+    # from opencompass.configs.models.vicuna.hf_vicuna_13b_v15_16k import models as vicuna_13b_v15_16k_model
+    # from opencompass.configs.models.chatglm.hf_chatglm3_6b_32k import models as chatglm3_6b_32k_model
+    # from opencompass.configs.models.baichuan.hf_baichuan2_7b_chat import models as baichuan2_7b_chat_model  # need torch 2.1
+    # from opencompass.configs.models.baichuan.hf_baichuan2_13b_chat import models as baichuan2_13b_chat_model  # need torch 2.1
+    # from opencompass.configs.models.hf_internlm.hf_internlm2_chat_7b import models as hf_internlm2_chat_7b_model
+    # from opencompass.configs.models.hf_internlm.hf_internlm2_chat_20b import models as hf_internlm2_chat_20b_model
+    # from opencompass.configs.models.yi.hf_yi_6b_chat import models as yi_6b_chat_model
+    # from opencompass.configs.models.yi.hf_yi_34b_chat import models as yi_34b_chat_model
+    # from opencompass.configs.models.deepseek.hf_deepseek_7b_chat import models as deepseek_7b_chat_model
+    # from opencompass.configs.models.deepseek.hf_deepseek_67b_chat import models as deepseek_67b_chat_model
+    # from opencompass.configs.models.qwen.hf_qwen_7b_chat import models as qwen_7b_chat_model
+    # from opencompass.configs.models.qwen.hf_qwen_14b_chat import models as qwen_14b_chat_model
+    # from opencompass.configs.models.qwen.hf_qwen_72b_chat import models as qwen_72b_chat_model
+    # <<<<<<------ https://arxiv.org/abs/2403.14112
+    # from opencompass.configs.models.openai.gpt_3_5_turbo_0125 import models as gpt_3_5_turbo_0125_model
+    # from opencompass.configs.models.openai.gpt_4o_2024_05_13 import models as gpt_4o_2024_05_13_model
+    # from opencompass.configs.models.gemini.gemini_1_5_flash import models as gemini_1_5_flash_model
+    # from opencompass.configs.models.gemini.gemini_1_5_pro import models as gemini_1_5_pro_model
+    # from opencompass.configs.models.hf_llama.lmdeploy_llama3_8b_instruct import models as lmdeploy_llama3_8b_instruct_model
+    # from opencompass.configs.models.hf_llama.lmdeploy_llama3_70b_instruct import models as lmdeploy_llama3_70b_instruct_model
+    # from opencompass.configs.models.hf_internlm.lmdeploy_internlm2_chat_1_8b import models as lmdeploy_internlm2_chat_1_8b_model
+    # from opencompass.configs.models.hf_internlm.lmdeploy_internlm2_chat_7b import models as lmdeploy_internlm2_chat_7b_model
+    # from opencompass.configs.models.hf_internlm.lmdeploy_internlm2_chat_20b import models as lmdeploy_internlm2_chat_20b_model
+    # from opencompass.configs.models.yi.hf_yi_1_5_6b_chat import models as yi_1_5_6b_chat_model
+    # from opencompass.configs.models.yi.hf_yi_1_5_34b_chat import models as yi_1_5_34b_chat_model
+    # from opencompass.configs.models.deepseek.hf_deepseek_v2_chat import models as deepseek_v2_chat_model
+    # from opencompass.configs.models.qwen.hf_qwen1_5_1_8b_chat import models as qwen1_5_1_8b_chat_model
+    # from opencompass.configs.models.qwen.hf_qwen1_5_7b_chat import models as qwen1_5_7b_chat_model
+    # from opencompass.configs.models.qwen.hf_qwen1_5_14b_chat import models as qwen1_5_14b_chat_model
+    # from opencompass.configs.models.qwen.hf_qwen1_5_72b_chat import models as qwen1_5_72b_chat_model
+
+models = sum([v for k, v in locals().items() if k.endswith('_model')], [])
+
+## ------------- JudgeLLM Configuration
+api_meta_template = dict(round=[
+    dict(role='HUMAN', api_role='HUMAN'),
+    dict(role='BOT', api_role='BOT', generate=True),
+])
+judge_models = [
+    dict(
+        abbr='GPT-3.5-turbo-0125',
+        type=OpenAI,
+        path='gpt-3.5-turbo-0125',
+        key='ENV',
+        meta_template=api_meta_template,
+        query_per_second=16,
+        max_out_len=2048,
+        max_seq_len=2048,
+        batch_size=8,
+        temperature=0,
+    )
+]
+
+## ------------- Evaluation Configuration
+eval = dict(
+    partitioner=dict(
+        type=SubjectiveSizePartitioner,
+        max_task_size=1000,
+        mode='singlescore',
+        models=models,
+        judge_models=judge_models,
+    ),
+    runner=dict(type=LocalRunner,
+                max_num_workers=2,
+                task=dict(type=SubjectiveEvalTask)),
+)
+
+summarizer = dict(type=CharmMemSummarizer)
+
+work_dir = './outputs/CHARM_mem/chat/'
--- a/examples/eval_charm_rea.py
+++ b/examples/eval_charm_rea.py
+from mmengine.config import read_base
+
+with read_base():
+    from opencompass.configs.datasets.CHARM.charm_reason_gen_f8fca2 import \
+        charm_reason_datasets as datasets
+
+    # ------>>>>>> https://arxiv.org/abs/2403.14112
+    # from opencompass.configs.models.openai.gpt_3_5_turbo_1106 import models as gpt_3_5_turbo_1106_model
+    # from opencompass.configs.models.openai.gpt_4_1106_preview import models as gpt_4_1106_preview_model
+    # from opencompass.configs.models.hf_llama.hf_llama2_7b_chat import models as llama2_7b_chat_model
+    # from opencompass.configs.models.hf_llama.hf_llama2_13b_chat import models as llama2_13b_chat_model
+    # from opencompass.configs.models.hf_llama.hf_llama2_70b_chat import models as llama2_70b_chat_model
+    # from opencompass.configs.models.vicuna.hf_vicuna_7b_v15_16k import models as vicuna_7b_v15_16k_model
+    # from opencompass.configs.models.vicuna.hf_vicuna_13b_v15_16k import models as vicuna_13b_v15_16k_model
+    # from opencompass.configs.models.chatglm.hf_chatglm3_6b_32k import models as chatglm3_6b_32k_model
+    # from opencompass.configs.models.baichuan.hf_baichuan2_7b_chat import models as baichuan2_7b_chat_model  # need torch 2.1
+    # from opencompass.configs.models.baichuan.hf_baichuan2_13b_chat import models as baichuan2_13b_chat_model  # need torch 2.1
+    # from opencompass.configs.models.hf_internlm.hf_internlm2_chat_7b import models as hf_internlm2_chat_7b_model
+    # from opencompass.configs.models.hf_internlm.hf_internlm2_chat_20b import models as hf_internlm2_chat_20b_model
+    # from opencompass.configs.models.yi.hf_yi_6b_chat import models as yi_6b_chat_model
+    # from opencompass.configs.models.yi.hf_yi_34b_chat import models as yi_34b_chat_model
+    # from opencompass.configs.models.deepseek.hf_deepseek_7b_chat import models as deepseek_7b_chat_model
+    # from opencompass.configs.models.deepseek.hf_deepseek_67b_chat import models as deepseek_67b_chat_model
+    # from opencompass.configs.models.qwen.hf_qwen_7b_chat import models as qwen_7b_chat_model
+    # from opencompass.configs.models.qwen.hf_qwen_14b_chat import models as qwen_14b_chat_model
+    # from opencompass.configs.models.qwen.hf_qwen_72b_chat import models as qwen_72b_chat_model
+    # <<<<<<------ https://arxiv.org/abs/2403.14112
+    # from opencompass.configs.models.openai.gpt_3_5_turbo_0125 import models as gpt_3_5_turbo_0125_model
+    # from opencompass.configs.models.openai.gpt_4o_2024_05_13 import models as gpt_4o_2024_05_13_model
+    # from opencompass.configs.models.gemini.gemini_1_5_flash import models as gemini_1_5_flash_model
+    # from opencompass.configs.models.gemini.gemini_1_5_pro import models as gemini_1_5_pro_model
+    # from opencompass.configs.models.hf_llama.lmdeploy_llama3_8b_instruct import models as lmdeploy_llama3_8b_instruct_model
+    # from opencompass.configs.models.hf_llama.lmdeploy_llama3_70b_instruct import models as lmdeploy_llama3_70b_instruct_model
+    # from opencompass.configs.models.hf_internlm.lmdeploy_internlm2_chat_1_8b import models as lmdeploy_internlm2_chat_1_8b_model
+    # from opencompass.configs.models.hf_internlm.lmdeploy_internlm2_chat_7b import models as lmdeploy_internlm2_chat_7b_model
+    # from opencompass.configs.models.hf_internlm.lmdeploy_internlm2_chat_20b import models as lmdeploy_internlm2_chat_20b_model
+    # from opencompass.configs.models.yi.hf_yi_1_5_6b_chat import models as yi_1_5_6b_chat_model
+    # from opencompass.configs.models.yi.hf_yi_1_5_34b_chat import models as yi_1_5_34b_chat_model
+    # from opencompass.configs.models.deepseek.hf_deepseek_v2_chat import models as deepseek_v2_chat_model
+    # from opencompass.configs.models.qwen.hf_qwen1_5_1_8b_chat import models as qwen1_5_1_8b_chat_model
+    # from opencompass.configs.models.qwen.hf_qwen1_5_7b_chat import models as qwen1_5_7b_chat_model
+    # from opencompass.configs.models.qwen.hf_qwen1_5_14b_chat import models as qwen1_5_14b_chat_model
+    # from opencompass.configs.models.qwen.hf_qwen1_5_72b_chat import models as qwen1_5_72b_chat_model
+    from .summarizers.charm_reason import summarizer
+
+models = sum([v for k, v in locals().items() if k.endswith('_model')], [])
+work_dir = './outputs/CHARM_rea/chat/'
+
+# dataset                                                        version    metric         mode    internlm2-chat-7b-turbomind
+# -------------------------------------------------------------  ---------  -------------  ------  -----------------------------
+# charm-reason-Direct                                               -          naive_average  gen     49.51
+# charm-reason-ZH-CoT                                               -          naive_average  gen     61.33
+# charm-reason-EN-CoT                                               -          naive_average  gen     54.55
+# charm-reason-XLT                                                  -          naive_average  gen     58.46
+# charm-reason-Translate-EN                                         -          naive_average  gen     56.15
+#                                                                -          -              -       -
+# charm-reason-Chinese_Direct                                       -          naive_average  gen     47.14
+# charm-reason-Chinese_ZH-CoT                                       -          naive_average  gen     58.40
+# charm-reason-Chinese_EN-CoT                                       -          naive_average  gen     48.31
+# charm-reason-Chinese_XLT                                          -          naive_average  gen     53.57
+# charm-reason-Chinese_Translate-EN                                 -          naive_average  gen     48.21
+# charm-reason-Global_Direct                                        -          naive_average  gen     51.88
+# charm-reason-Global_ZH-CoT                                        -          naive_average  gen     64.26
+# charm-reason-Global_EN-CoT                                        -          naive_average  gen     60.79
+# charm-reason-Global_XLT                                           -          naive_average  gen     63.36
+# charm-reason-Global_Translate-EN                                  -          naive_average  gen     64.10