Initial commit

be3dfa50 · jerrrrry · be3dfa50 · be3dfa50 · be3dfa50 · be3dfa50
Commit be3dfa50 authored Aug 06, 2025 by jerrrrry
20 changed files
--- a/opencompass/configs/datasets/ARC_c/ARC_c_cot_gen_926652.py
+++ b/opencompass/configs/datasets/ARC_c/ARC_c_cot_gen_926652.py
+from opencompass.openicl.icl_prompt_template import PromptTemplate
+from opencompass.openicl.icl_retriever import ZeroRetriever
+from opencompass.openicl.icl_inferencer import GenInferencer
+from opencompass.openicl.icl_evaluator import AccEvaluator
+from opencompass.datasets import ARCDataset
+from opencompass.utils.text_postprocessors import first_option_postprocess, match_answer_pattern
+
+QUERY_TEMPLATE = """
+Answer the following multiple choice question. The last line of your response should be of the following format: 'ANSWER: $LETTER' (without quotes) where LETTER is one of ABCD. Think step by step before answering.
+
+{question}
+
+A. {textA}
+B. {textB}
+C. {textC}
+D. {textD}
+""".strip()
+
+ARC_c_reader_cfg = dict(
+    input_columns=['question', 'textA', 'textB', 'textC', 'textD'],
+    output_column='answerKey')
+
+ARC_c_infer_cfg = dict(
+    prompt_template=dict(
+        type=PromptTemplate,
+        template=dict(
+            round=[
+                dict(
+                    role='HUMAN',
+                    prompt=QUERY_TEMPLATE)
+            ], ),
+    ),
+    retriever=dict(type=ZeroRetriever),
+    inferencer=dict(type=GenInferencer),
+)
+
+ARC_c_eval_cfg = dict(
+    evaluator=dict(type=AccEvaluator),
+    pred_role='BOT',
+    pred_postprocessor=dict(type=first_option_postprocess, options='ABCD'),
+)
+
+ARC_c_datasets = [
+    dict(
+        abbr='ARC-c',
+        type=ARCDataset,
+        path='opencompass/ai2_arc-dev',
+        name='ARC-Challenge',
+        reader_cfg=ARC_c_reader_cfg,
+        infer_cfg=ARC_c_infer_cfg,
+        eval_cfg=ARC_c_eval_cfg,
+    )
+]
--- a/opencompass/configs/datasets/ARC_c/ARC_c_few_shot_gen_e9b043.py
+++ b/opencompass/configs/datasets/ARC_c/ARC_c_few_shot_gen_e9b043.py
+from opencompass.openicl.icl_prompt_template import PromptTemplate
+from opencompass.openicl.icl_retriever import ZeroRetriever, FixKRetriever
+from opencompass.openicl.icl_inferencer import GenInferencer
+from opencompass.openicl.icl_evaluator import AccEvaluator
+from opencompass.datasets import ARCDataset
+from opencompass.utils.text_postprocessors import first_capital_postprocess
+
+ARC_c_reader_cfg = dict(
+    input_columns=['question', 'textA', 'textB', 'textC', 'textD'],
+    output_column='answerKey',
+)
+
+ARC_c_infer_cfg = dict(
+    ice_template=dict(
+        type=PromptTemplate,
+        template=dict(
+            begin='</E>',
+            round=[
+                dict(
+                    role='HUMAN',
+                    prompt='Question: {question}\nA. {textA}\nB. {textB}\nC. {textC}\nD. {textD}\nAnswer:',
+                ),
+                dict(role='BOT', prompt='{answerKey}'),
+            ],
+        ),
+        ice_token='</E>',
+    ),
+    retriever=dict(type=FixKRetriever, fix_id_list=[0, 2, 4, 6, 8]),
+    inferencer=dict(type=GenInferencer, max_out_len=50),
+)
+
+ARC_c_eval_cfg = dict(
+    evaluator=dict(type=AccEvaluator),
+    pred_role='BOT',
+    pred_postprocessor=dict(type=first_capital_postprocess),
+)
+
+ARC_c_datasets = [
+    dict(
+        abbr='ARC-c',
+        type=ARCDataset,
+        path='opencompass/ai2_arc-dev',
+        name='ARC-Challenge',
+        reader_cfg=ARC_c_reader_cfg,
+        infer_cfg=ARC_c_infer_cfg,
+        eval_cfg=ARC_c_eval_cfg,
+    )
+]
--- a/opencompass/configs/datasets/ARC_c/ARC_c_few_shot_ppl.py
+++ b/opencompass/configs/datasets/ARC_c/ARC_c_few_shot_ppl.py
+from opencompass.openicl.icl_prompt_template import PromptTemplate
+from opencompass.openicl.icl_retriever import ZeroRetriever, FixKRetriever
+from opencompass.openicl.icl_inferencer import PPLInferencer
+from opencompass.openicl.icl_evaluator import AccEvaluator
+from opencompass.datasets import ARCDataset
+
+ARC_c_reader_cfg = dict(
+    input_columns=['question', 'textA', 'textB', 'textC', 'textD'],
+    output_column='answerKey',
+)
+
+ARC_c_infer_cfg = dict(
+    ice_template=dict(
+        type=PromptTemplate,
+        template={
+            'A': dict(
+                begin='</E>',
+                round=[
+                    dict(role='HUMAN', prompt='Question: {question}\nAnswer: '),
+                    dict(role='BOT', prompt='{textA}'),
+                ],
+            ),
+            'B': dict(
+                begin='</E>',
+                round=[
+                    dict(role='HUMAN', prompt='Question: {question}\nAnswer: '),
+                    dict(role='BOT', prompt='{textB}'),
+                ],
+            ),
+            'C': dict(
+                begin='</E>',
+                round=[
+                    dict(role='HUMAN', prompt='Question: {question}\nAnswer: '),
+                    dict(role='BOT', prompt='{textC}'),
+                ],
+            ),
+            'D': dict(
+                begin='</E>',
+                round=[
+                    dict(role='HUMAN', prompt='Question: {question}\nAnswer: '),
+                    dict(role='BOT', prompt='{textD}'),
+                ],
+            ),
+        },
+        ice_token='</E>',
+    ),
+    retriever=dict(type=FixKRetriever, fix_id_list=[0, 2, 4, 6, 8]),
+    inferencer=dict(type=PPLInferencer),
+)
+
+ARC_c_eval_cfg = dict(evaluator=dict(type=AccEvaluator))
+
+ARC_c_datasets = [
+    dict(
+        type=ARCDataset,
+        abbr='ARC-c',
+        path='opencompass/ai2_arc-dev',
+        name='ARC-Challenge',
+        reader_cfg=ARC_c_reader_cfg,
+        infer_cfg=ARC_c_infer_cfg,
+        eval_cfg=ARC_c_eval_cfg,
+    )
+]
--- a/opencompass/configs/datasets/ARC_c/ARC_c_gen.py
+++ b/opencompass/configs/datasets/ARC_c/ARC_c_gen.py
+from mmengine.config import read_base
+
+with read_base():
+    from .ARC_c_gen_1e0de5 import ARC_c_datasets  # noqa: F401, F403
--- a/opencompass/configs/datasets/ARC_c/ARC_c_gen_1e0de5.py
+++ b/opencompass/configs/datasets/ARC_c/ARC_c_gen_1e0de5.py
+from opencompass.openicl.icl_prompt_template import PromptTemplate
+from opencompass.openicl.icl_retriever import ZeroRetriever
+from opencompass.openicl.icl_inferencer import GenInferencer
+from opencompass.openicl.icl_evaluator import AccEvaluator
+from opencompass.datasets import ARCDataset
+from opencompass.utils.text_postprocessors import first_option_postprocess
+
+ARC_c_reader_cfg = dict(
+    input_columns=['question', 'textA', 'textB', 'textC', 'textD'],
+    output_column='answerKey')
+
+ARC_c_infer_cfg = dict(
+    prompt_template=dict(
+        type=PromptTemplate,
+        template=dict(
+            round=[
+                dict(
+                    role='HUMAN',
+                    prompt=
+                    'Question: {question}\nA. {textA}\nB. {textB}\nC. {textC}\nD. {textD}\nAnswer:'
+                )
+            ], ),
+    ),
+    retriever=dict(type=ZeroRetriever),
+    inferencer=dict(type=GenInferencer),
+)
+
+ARC_c_eval_cfg = dict(
+    evaluator=dict(type=AccEvaluator),
+    pred_role='BOT',
+    pred_postprocessor=dict(type=first_option_postprocess, options='ABCD'),
+)
+
+ARC_c_datasets = [
+    dict(
+        abbr='ARC-c',
+        type=ARCDataset,
+        path='opencompass/ai2_arc-dev',
+        name='ARC-Challenge',
+        reader_cfg=ARC_c_reader_cfg,
+        infer_cfg=ARC_c_infer_cfg,
+        eval_cfg=ARC_c_eval_cfg,
+    )
+]
--- a/opencompass/configs/datasets/ARC_c/ARC_c_ppl.py
+++ b/opencompass/configs/datasets/ARC_c/ARC_c_ppl.py
+from mmengine.config import read_base
+
+with read_base():
+    from .ARC_c_ppl_a450bd import ARC_c_datasets  # noqa: F401, F403
--- a/opencompass/configs/datasets/ARC_c/ARC_c_ppl_2ef631.py
+++ b/opencompass/configs/datasets/ARC_c/ARC_c_ppl_2ef631.py
+from opencompass.openicl.icl_prompt_template import PromptTemplate
+from opencompass.openicl.icl_retriever import ZeroRetriever
+from opencompass.openicl.icl_inferencer import PPLInferencer
+from opencompass.openicl.icl_evaluator import AccEvaluator
+from opencompass.datasets import ARCDataset
+
+ARC_c_reader_cfg = dict(
+    input_columns=['question', 'textA', 'textB', 'textC', 'textD'],
+    output_column='answerKey')
+
+ARC_c_infer_cfg = dict(
+    prompt_template=dict(
+        type=PromptTemplate,
+        template={
+            opt: dict(
+                round=[
+                    dict(role='HUMAN', prompt=f'{{question}}\nA. {{textA}}\nB. {{textB}}\nC. {{textC}}\nD. {{textD}}'),
+                    dict(role='BOT', prompt=f'Answer: {opt}'),
+                ]
+            ) for opt in ['A', 'B', 'C', 'D']
+        },
+    ),
+    retriever=dict(type=ZeroRetriever),
+    inferencer=dict(type=PPLInferencer))
+
+ARC_c_eval_cfg = dict(evaluator=dict(type=AccEvaluator))
+
+ARC_c_datasets = [
+    dict(
+        type=ARCDataset,
+        abbr='ARC-c',
+        path='opencompass/ai2_arc-dev',
+        name='ARC-Challenge',
+        reader_cfg=ARC_c_reader_cfg,
+        infer_cfg=ARC_c_infer_cfg,
+        eval_cfg=ARC_c_eval_cfg)
+]
--- a/opencompass/configs/datasets/ARC_c/ARC_c_ppl_a450bd.py
+++ b/opencompass/configs/datasets/ARC_c/ARC_c_ppl_a450bd.py
+from opencompass.openicl.icl_prompt_template import PromptTemplate
+from opencompass.openicl.icl_retriever import ZeroRetriever
+from opencompass.openicl.icl_inferencer import PPLInferencer
+from opencompass.openicl.icl_evaluator import AccEvaluator
+from opencompass.datasets import ARCDataset
+
+ARC_c_reader_cfg = dict(
+    input_columns=['question', 'textA', 'textB', 'textC', 'textD'],
+    output_column='answerKey')
+
+ARC_c_infer_cfg = dict(
+    prompt_template=dict(
+        type=PromptTemplate,
+        template={
+            'A':
+            dict(
+                round=[
+                    dict(role='HUMAN', prompt='Question: {question}\nAnswer: '),
+                    dict(role='BOT', prompt='{textA}')
+                ], ),
+            'B':
+            dict(
+                round=[
+                    dict(role='HUMAN', prompt='Question: {question}\nAnswer: '),
+                    dict(role='BOT', prompt='{textB}')
+                ], ),
+            'C':
+            dict(
+                round=[
+                    dict(role='HUMAN', prompt='Question: {question}\nAnswer: '),
+                    dict(role='BOT', prompt='{textC}')
+                ], ),
+            'D':
+            dict(
+                round=[
+                    dict(role='HUMAN', prompt='Question: {question}\nAnswer: '),
+                    dict(role='BOT', prompt='{textD}')
+                ], ),
+        }),
+    retriever=dict(type=ZeroRetriever),
+    inferencer=dict(type=PPLInferencer))
+
+ARC_c_eval_cfg = dict(evaluator=dict(type=AccEvaluator))
+
+ARC_c_datasets = [
+    dict(
+        type=ARCDataset,
+        abbr='ARC-c',
+        path='opencompass/ai2_arc-dev',
+        name='ARC-Challenge',
+        reader_cfg=ARC_c_reader_cfg,
+        infer_cfg=ARC_c_infer_cfg,
+        eval_cfg=ARC_c_eval_cfg)
+]
--- a/opencompass/configs/datasets/ARC_c/ARC_c_ppl_d52a21.py
+++ b/opencompass/configs/datasets/ARC_c/ARC_c_ppl_d52a21.py
+from mmengine.config import read_base
+# with read_base():
+from opencompass.openicl.icl_prompt_template import PromptTemplate
+from opencompass.openicl.icl_retriever import ZeroRetriever
+from opencompass.openicl.icl_inferencer import PPLInferencer
+from opencompass.openicl.icl_evaluator import AccEvaluator
+from opencompass.datasets import ARCDataset
+
+ARC_c_reader_cfg = dict(
+    input_columns=['question', 'textA', 'textB', 'textC', 'textD'],
+    output_column='answerKey')
+
+ARC_c_infer_cfg = dict(
+    prompt_template=dict(
+        type=PromptTemplate,
+        template={
+            'A': 'Question: {question}\nAnswer: {textA}',
+            'B': 'Question: {question}\nAnswer: {textB}',
+            'C': 'Question: {question}\nAnswer: {textC}',
+            'D': 'Question: {question}\nAnswer: {textD}'
+        }),
+    retriever=dict(type=ZeroRetriever),
+    inferencer=dict(type=PPLInferencer))
+
+ARC_c_eval_cfg = dict(evaluator=dict(type=AccEvaluator))
+
+ARC_c_datasets = [
+    dict(
+        type=ARCDataset,
+        abbr='ARC-c',
+        path='opencompass/ai2_arc-dev',
+        name='ARC-Challenge',
+        reader_cfg=ARC_c_reader_cfg,
+        infer_cfg=ARC_c_infer_cfg,
+        eval_cfg=ARC_c_eval_cfg)
+]
--- a/opencompass/configs/datasets/ARC_e/ARC_e_gen.py
+++ b/opencompass/configs/datasets/ARC_e/ARC_e_gen.py
+from mmengine.config import read_base
+
+with read_base():
+    from .ARC_e_gen_1e0de5 import ARC_e_datasets  # noqa: F401, F403
--- a/opencompass/configs/datasets/ARC_e/ARC_e_gen_1e0de5.py
+++ b/opencompass/configs/datasets/ARC_e/ARC_e_gen_1e0de5.py
+from opencompass.openicl.icl_prompt_template import PromptTemplate
+from opencompass.openicl.icl_retriever import ZeroRetriever
+from opencompass.openicl.icl_inferencer import GenInferencer
+from opencompass.openicl.icl_evaluator import AccEvaluator
+from opencompass.datasets import ARCDataset
+from opencompass.utils.text_postprocessors import first_option_postprocess
+
+ARC_e_reader_cfg = dict(
+    input_columns=['question', 'textA', 'textB', 'textC', 'textD'],
+    output_column='answerKey')
+
+ARC_e_infer_cfg = dict(
+    prompt_template=dict(
+        type=PromptTemplate,
+        template=dict(
+            round=[
+                dict(
+                    role='HUMAN',
+                    prompt=
+                    'Question: {question}\nA. {textA}\nB. {textB}\nC. {textC}\nD. {textD}\nAnswer:'
+                )
+            ], ),
+    ),
+    retriever=dict(type=ZeroRetriever),
+    inferencer=dict(type=GenInferencer),
+)
+
+ARC_e_eval_cfg = dict(
+    evaluator=dict(type=AccEvaluator),
+    pred_role='BOT',
+    pred_postprocessor=dict(type=first_option_postprocess, options='ABCD'),
+)
+
+ARC_e_datasets = [
+    dict(
+        abbr='ARC-e',
+        type=ARCDataset,
+        path='opencompass/ai2_arc-easy-dev',
+        name='ARC-Easy',
+        reader_cfg=ARC_e_reader_cfg,
+        infer_cfg=ARC_e_infer_cfg,
+        eval_cfg=ARC_e_eval_cfg,
+    )
+]
--- a/opencompass/configs/datasets/ARC_e/ARC_e_ppl.py
+++ b/opencompass/configs/datasets/ARC_e/ARC_e_ppl.py
+from mmengine.config import read_base
+
+with read_base():
+    from .ARC_e_ppl_a450bd import ARC_e_datasets  # noqa: F401, F403
--- a/opencompass/configs/datasets/ARC_e/ARC_e_ppl_2ef631.py
+++ b/opencompass/configs/datasets/ARC_e/ARC_e_ppl_2ef631.py
+from opencompass.openicl.icl_prompt_template import PromptTemplate
+from opencompass.openicl.icl_retriever import ZeroRetriever
+from opencompass.openicl.icl_inferencer import PPLInferencer
+from opencompass.openicl.icl_evaluator import AccEvaluator
+from opencompass.datasets import ARCDataset
+
+ARC_e_reader_cfg = dict(
+    input_columns=['question', 'textA', 'textB', 'textC', 'textD'],
+    output_column='answerKey')
+
+ARC_e_infer_cfg = dict(
+    prompt_template=dict(
+        type=PromptTemplate,
+        template={
+            opt: dict(
+                round=[
+                    dict(role='HUMAN', prompt=f'{{question}}\nA. {{textA}}\nB. {{textB}}\nC. {{textC}}\nD. {{textD}}'),
+                    dict(role='BOT', prompt=f'Answer: {opt}'),
+                ]
+            ) for opt in ['A', 'B', 'C', 'D']
+        },
+    ),
+    retriever=dict(type=ZeroRetriever),
+    inferencer=dict(type=PPLInferencer))
+
+ARC_e_eval_cfg = dict(evaluator=dict(type=AccEvaluator))
+
+ARC_e_datasets = [
+    dict(
+        type=ARCDataset,
+        abbr='ARC-e',
+        path='opencompass/ai2_arc-easy-dev',
+        name='ARC-Easy',
+        reader_cfg=ARC_e_reader_cfg,
+        infer_cfg=ARC_e_infer_cfg,
+        eval_cfg=ARC_e_eval_cfg)
+]
--- a/opencompass/configs/datasets/ARC_e/ARC_e_ppl_a450bd.py
+++ b/opencompass/configs/datasets/ARC_e/ARC_e_ppl_a450bd.py
+from opencompass.openicl.icl_prompt_template import PromptTemplate
+from opencompass.openicl.icl_retriever import ZeroRetriever
+from opencompass.openicl.icl_inferencer import PPLInferencer
+from opencompass.openicl.icl_evaluator import AccEvaluator
+from opencompass.datasets import ARCDataset
+
+ARC_e_reader_cfg = dict(
+    input_columns=['question', 'textA', 'textB', 'textC', 'textD'],
+    output_column='answerKey')
+
+ARC_e_infer_cfg = dict(
+    prompt_template=dict(
+        type=PromptTemplate,
+        template={
+            'A':
+            dict(
+                round=[
+                    dict(role='HUMAN', prompt='Question: {question}\nAnswer: '),
+                    dict(role='BOT', prompt='{textA}')
+                ], ),
+            'B':
+            dict(
+                round=[
+                    dict(role='HUMAN', prompt='Question: {question}\nAnswer: '),
+                    dict(role='BOT', prompt='{textB}')
+                ], ),
+            'C':
+            dict(
+                round=[
+                    dict(role='HUMAN', prompt='Question: {question}\nAnswer: '),
+                    dict(role='BOT', prompt='{textC}')
+                ], ),
+            'D':
+            dict(
+                round=[
+                    dict(role='HUMAN', prompt='Question: {question}\nAnswer: '),
+                    dict(role='BOT', prompt='{textD}')
+                ], ),
+        }),
+    retriever=dict(type=ZeroRetriever),
+    inferencer=dict(type=PPLInferencer))
+
+ARC_e_eval_cfg = dict(evaluator=dict(type=AccEvaluator))
+
+ARC_e_datasets = [
+    dict(
+        type=ARCDataset,
+        abbr='ARC-e',
+        path='opencompass/ai2_arc-easy-dev',
+        name='ARC-Easy',
+        reader_cfg=ARC_e_reader_cfg,
+        infer_cfg=ARC_e_infer_cfg,
+        eval_cfg=ARC_e_eval_cfg)
+]
--- a/opencompass/configs/datasets/ARC_e/ARC_e_ppl_d52a21.py
+++ b/opencompass/configs/datasets/ARC_e/ARC_e_ppl_d52a21.py
+from opencompass.openicl.icl_prompt_template import PromptTemplate
+from opencompass.openicl.icl_retriever import ZeroRetriever
+from opencompass.openicl.icl_inferencer import PPLInferencer
+from opencompass.openicl.icl_evaluator import AccEvaluator
+from opencompass.datasets import ARCDataset
+
+ARC_e_reader_cfg = dict(
+    input_columns=['question', 'textA', 'textB', 'textC', 'textD'],
+    output_column='answerKey')
+
+ARC_e_infer_cfg = dict(
+    prompt_template=dict(
+        type=PromptTemplate,
+        template={
+            'A': 'Question: {question}\nAnswer: {textA}',
+            'B': 'Question: {question}\nAnswer: {textB}',
+            'C': 'Question: {question}\nAnswer: {textC}',
+            'D': 'Question: {question}\nAnswer: {textD}'
+        }),
+    retriever=dict(type=ZeroRetriever),
+    inferencer=dict(type=PPLInferencer))
+
+ARC_e_eval_cfg = dict(evaluator=dict(type=AccEvaluator))
+
+ARC_e_datasets = [
+    dict(
+        type=ARCDataset,
+        abbr='ARC-e',
+        path='opencompass/ai2_arc-easy-dev',
+        name='ARC-Easy',
+        reader_cfg=ARC_e_reader_cfg,
+        infer_cfg=ARC_e_infer_cfg,
+        eval_cfg=ARC_e_eval_cfg)
+]
--- a/opencompass/configs/datasets/CHARM/README.md
+++ b/opencompass/configs/datasets/CHARM/README.md
+# CHARM✨ Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations [ACL2024]
+[![arXiv](https://img.shields.io/badge/arXiv-2403.14112-b31b1b.svg)](https://arxiv.org/abs/2403.14112)
+[![license](https://img.shields.io/github/license/InternLM/opencompass.svg)](./LICENSE)
+<div align="center">
+
+📃[Paper](https://arxiv.org/abs/2403.14112)
+🏰[Project Page](https://opendatalab.github.io/CHARM/)
+🏆[Leaderboard](https://opendatalab.github.io/CHARM/leaderboard.html)
+✨[Findings](https://opendatalab.github.io/CHARM/findings.html)
+
+</div>
+
+<div align="center">
+    📖 <a href="./README_ZH.md">   中文</a> | <a href="./README.md">English</a>
+</div>
+
+## Dataset Description
+
+**CHARM** is the first benchmark for comprehensively and in-depth evaluating the commonsense reasoning ability of large language models (LLMs) in Chinese, which covers both globally known and Chinese-specific commonsense. In addition, the CHARM can evaluate the LLMs' memorization-independent reasoning abilities and analyze the typical errors.
+
+## Comparison of commonsense reasoning benchmarks
+<html lang="en">
+        <table align="center">
+            <thead class="fixed-header">
+                <tr>
+                    <th>Benchmarks</th>
+                    <th>CN-Lang</th>
+                    <th>CSR</th>
+                    <th>CN-specifics</th>
+                    <th>Dual-Domain</th>
+                    <th>Rea-Mem</th>
+                </tr>
+            </thead>
+            <tr>
+                <td>Most benchmarks in <a href="https://arxiv.org/abs/2302.04752"> davis2023benchmarks</a></td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+                <td><strong><span style="color: green;">&#x2714;</span></strong></td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+            </tr>
+            <tr>
+                <td><a href="https://arxiv.org/abs/1809.05053"> XNLI</a>, <a
+                        href="https://arxiv.org/abs/2005.00333">XCOPA</a>,<a
+                        href="https://arxiv.org/abs/2112.10668">XStoryCloze</a></td>
+                <td><strong><span style="color: green;">&#x2714;</span></strong></td>
+                <td><strong><span style="color: green;">&#x2714;</span></strong></td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+            </tr>
+            <tr>
+                <td><a href="https://arxiv.org/abs/2007.08124">LogiQA</a>, <a
+                        href="https://arxiv.org/abs/2004.05986">CLUE</a>, <a
+                        href="https://arxiv.org/abs/2306.09212">CMMLU</a></td>
+                <td><strong><span style="color: green;">&#x2714;</span></strong></td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+                <td><strong><span style="color: green;">&#x2714;</span></strong></td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+            </tr>
+            <tr>
+                <td><a href="https://arxiv.org/abs/2312.12853">CORECODE</a> </td>
+                <td><strong><span style="color: green;">&#x2714;</span></strong></td>
+                <td><strong><span style="color: green;">&#x2714;</span></strong></td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+            </tr>
+            <tr>
+                <td><strong><a href="https://arxiv.org/abs/2403.14112">CHARM (ours)</a> </strong></td>
+                <td><strong><span style="color: green;">&#x2714;</span></strong></td>
+                <td><strong><span style="color: green;">&#x2714;</span></strong></td>
+                <td><strong><span style="color: green;">&#x2714;</span></strong></td>
+                <td><strong><span style="color: green;">&#x2714;</span></strong></td>
+                <td><strong><span style="color: green;">&#x2714;</span></strong></td>
+            </tr>
+        </table>
+
+"CN-Lang" indicates the benchmark is presented in Chinese language. "CSR" means the benchmark is designed to focus on <strong>C</strong>ommon<strong>S</strong>ense <strong>R</strong>easoning. "CN-specific" indicates the benchmark includes elements that are unique to Chinese culture, language, regional characteristics, history, etc. "Dual-Domain" indicates the benchmark encompasses both Chinese-specific and global domain tasks, with questions presented in the similar style and format. "Rea-Mem" indicates the benchmark includes closely-interconnected <strong>rea</strong>soning and <strong>mem</strong>orization tasks.
+
+
+## 🛠️ How to Use
+Below are the steps for quickly downloading CHARM and using OpenCompass for evaluation.
+
+### 1. Download CHARM
+```bash
+git clone https://github.com/opendatalab/CHARM ${path_to_CHARM_repo}
+
+cd ${path_to_opencompass}
+mkdir data
+ln -snf ${path_to_CHARM_repo}/data/CHARM ./data/CHARM
+```
+### 2. Run Inference and Evaluation
+```bash
+cd ${path_to_opencompass}
+
+# modify config file `configs/eval_charm_rea.py`: uncomment or add models you want to evaluate
+python run.py configs/eval_charm_rea.py -r --dump-eval-details
+
+# modify config file `configs/eval_charm_mem.py`: uncomment or add models you want to evaluate
+python run.py configs/eval_charm_mem.py -r --dump-eval-details
+```
+The inference and evaluation results would be in `${path_to_opencompass}/outputs`, like this:
+```bash
+outputs
+├── CHARM_mem
+│   └── chat
+│       └── 20240605_151442
+│           ├── predictions
+│           │   ├── internlm2-chat-1.8b-turbomind
+│           │   ├── llama-3-8b-instruct-lmdeploy
+│           │   └── qwen1.5-1.8b-chat-hf
+│           ├── results
+│           │   ├── internlm2-chat-1.8b-turbomind_judged-by--GPT-3.5-turbo-0125
+│           │   ├── llama-3-8b-instruct-lmdeploy_judged-by--GPT-3.5-turbo-0125
+│           │   └── qwen1.5-1.8b-chat-hf_judged-by--GPT-3.5-turbo-0125
+│           └── summary
+│               └── 20240605_205020 # MEMORY_SUMMARY_DIR
+│                   ├── judged-by--GPT-3.5-turbo-0125-charm-memory-Chinese_Anachronisms_Judgment
+│                   ├── judged-by--GPT-3.5-turbo-0125-charm-memory-Chinese_Movie_and_Music_Recommendation
+│                   ├── judged-by--GPT-3.5-turbo-0125-charm-memory-Chinese_Sport_Understanding
+│                   ├── judged-by--GPT-3.5-turbo-0125-charm-memory-Chinese_Time_Understanding
+│                   └── judged-by--GPT-3.5-turbo-0125.csv # MEMORY_SUMMARY_CSV
+└── CHARM_rea
+    └── chat
+        └── 20240605_152359
+            ├── predictions
+            │   ├── internlm2-chat-1.8b-turbomind
+            │   ├── llama-3-8b-instruct-lmdeploy
+            │   └── qwen1.5-1.8b-chat-hf
+            ├── results # REASON_RESULTS_DIR
+            │   ├── internlm2-chat-1.8b-turbomind
+            │   ├── llama-3-8b-instruct-lmdeploy
+            │   └── qwen1.5-1.8b-chat-hf
+            └── summary
+                ├── summary_20240605_205328.csv # REASON_SUMMARY_CSV
+                └── summary_20240605_205328.txt
+```
+### 3. Generate Analysis Results
+```bash
+cd ${path_to_CHARM_repo}
+
+# generate Table5, Table6, Table9 and Table10 in https://arxiv.org/abs/2403.14112
+PYTHONPATH=. python tools/summarize_reasoning.py ${REASON_SUMMARY_CSV}
+
+# generate Figure3 and Figure9 in https://arxiv.org/abs/2403.14112
+PYTHONPATH=. python tools/summarize_mem_rea.py ${REASON_SUMMARY_CSV} ${MEMORY_SUMMARY_CSV}
+
+# generate Table7, Table12, Table13 and Figure11 in https://arxiv.org/abs/2403.14112
+PYTHONPATH=. python tools/analyze_mem_indep_rea.py data/CHARM ${REASON_RESULTS_DIR} ${MEMORY_SUMMARY_DIR} ${MEMORY_SUMMARY_CSV}
+```
+
+## 🖊️ Citation
+```bibtex
+@misc{sun2024benchmarking,
+      title={Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations},
+      author={Jiaxing Sun and Weiquan Huang and Jiang Wu and Chenya Gu and Wei Li and Songyang Zhang and Hang Yan and Conghui He},
+      year={2024},
+      eprint={2403.14112},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL}
+}
+```
--- a/opencompass/configs/datasets/CHARM/README_ZH.md
+++ b/opencompass/configs/datasets/CHARM/README_ZH.md
+# CHARM✨ Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations [ACL2024]
+[![arXiv](https://img.shields.io/badge/arXiv-2403.14112-b31b1b.svg)](https://arxiv.org/abs/2403.14112)
+[![license](https://img.shields.io/github/license/InternLM/opencompass.svg)](./LICENSE)
+<div align="center">
+
+📃[Paper](https://arxiv.org/abs/2403.14112)
+🏰[Project Page](https://opendatalab.github.io/CHARM/)
+🏆[Leaderboard](https://opendatalab.github.io/CHARM/leaderboard.html)
+✨[Findings](https://opendatalab.github.io/CHARM/findings.html)
+</div>
+
+<div align="center">
+    📖 <a href="./README_ZH.md">   中文</a> | <a href="./README.md">English</a>
+</div>
+
+## 数据集介绍
+
+**CHARM** 是首个全面深入评估大型语言模型（LLMs）在中文常识推理能力的基准测试，它覆盖了国际普遍认知的常识以及独特的中国文化常识。此外，CHARM 还可以评估 LLMs 独立于记忆的推理能力，并分析其典型错误。
+
+
+## 与其他常识推理评测基准的比较
+<html lang="en">
+        <table align="center">
+            <thead class="fixed-header">
+                <tr>
+                    <th>基准</th>
+                    <th>汉语</th>
+                    <th>常识推理</th>
+                    <th>中国特有知识</th>
+                    <th>中国和世界知识域</th>
+                    <th>推理和记忆的关系</th>
+                </tr>
+            </thead>
+            <tr>
+                <td><a href="https://arxiv.org/abs/2302.04752"> davis2023benchmarks</a> 中提到的基准</td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+                <td><strong><span style="color: green;">&#x2714;</span></strong></td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+            </tr>
+            <tr>
+                <td><a href="https://arxiv.org/abs/1809.05053"> XNLI</a>, <a
+                        href="https://arxiv.org/abs/2005.00333">XCOPA</a>,<a
+                        href="https://arxiv.org/abs/2112.10668">XStoryCloze</a></td>
+                <td><strong><span style="color: green;">&#x2714;</span></strong></td>
+                <td><strong><span style="color: green;">&#x2714;</span></strong></td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+            </tr>
+            <tr>
+                <td><a href="https://arxiv.org/abs/2007.08124">LogiQA</a>,<a
+                        href="https://arxiv.org/abs/2004.05986">CLUE</a>, <a
+                        href="https://arxiv.org/abs/2306.09212">CMMLU</a></td>
+                <td><strong><span style="color: green;">&#x2714;</span></strong></td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+                <td><strong><span style="color: green;">&#x2714;</span></strong></td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+            </tr>
+            <tr>
+                <td><a href="https://arxiv.org/abs/2312.12853">CORECODE</a> </td>
+                <td><strong><span style="color: green;">&#x2714;</span></strong></td>
+                <td><strong><span style="color: green;">&#x2714;</span></strong></td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+                <td><strong><span style="color: red;">&#x2718;</span></strong></td>
+            </tr>
+            <tr>
+                <td><strong><a href="https://arxiv.org/abs/2403.14112">CHARM (ours)</a> </strong></td>
+                <td><strong><span style="color: green;">&#x2714;</span></strong></td>
+                <td><strong><span style="color: green;">&#x2714;</span></strong></td>
+                <td><strong><span style="color: green;">&#x2714;</span></strong></td>
+                <td><strong><span style="color: green;">&#x2714;</span></strong></td>
+                <td><strong><span style="color: green;">&#x2714;</span></strong></td>
+            </tr>
+        </table>
+
+
+## 🛠️ 如何使用
+以下是快速下载 CHARM 并在 OpenCompass 上进行评估的步骤。
+
+### 1. 下载 CHARM
+```bash
+git clone https://github.com/opendatalab/CHARM ${path_to_CHARM_repo}
+
+cd ${path_to_opencompass}
+mkdir data
+ln -snf ${path_to_CHARM_repo}/data/CHARM ./data/CHARM
+```
+### 2. 推理和评测
+```bash
+cd ${path_to_opencompass}
+
+# 修改配置文件`configs/eval_charm_rea.py`: 将现有的模型取消注释，或者添加你想评测的模型
+python run.py configs/eval_charm_rea.py -r --dump-eval-details
+
+# 修改配置文件`configs/eval_charm_mem.py`: 将现有的模型取消注释，或者添加你想评测的模型
+python run.py configs/eval_charm_mem.py -r --dump-eval-details
+```
+推理和评测的结果位于路径`${path_to_opencompass}/outputs`, 如下所示:
+```bash
+outputs
+├── CHARM_mem
+│   └── chat
+│       └── 20240605_151442
+│           ├── predictions
+│           │   ├── internlm2-chat-1.8b-turbomind
+│           │   ├── llama-3-8b-instruct-lmdeploy
+│           │   └── qwen1.5-1.8b-chat-hf
+│           ├── results
+│           │   ├── internlm2-chat-1.8b-turbomind_judged-by--GPT-3.5-turbo-0125
+│           │   ├── llama-3-8b-instruct-lmdeploy_judged-by--GPT-3.5-turbo-0125
+│           │   └── qwen1.5-1.8b-chat-hf_judged-by--GPT-3.5-turbo-0125
+│           └── summary
+│               └── 20240605_205020 # MEMORY_SUMMARY_DIR
+│                   ├── judged-by--GPT-3.5-turbo-0125-charm-memory-Chinese_Anachronisms_Judgment
+│                   ├── judged-by--GPT-3.5-turbo-0125-charm-memory-Chinese_Movie_and_Music_Recommendation
+│                   ├── judged-by--GPT-3.5-turbo-0125-charm-memory-Chinese_Sport_Understanding
+│                   ├── judged-by--GPT-3.5-turbo-0125-charm-memory-Chinese_Time_Understanding
+│                   └── judged-by--GPT-3.5-turbo-0125.csv # MEMORY_SUMMARY_CSV
+└── CHARM_rea
+    └── chat
+        └── 20240605_152359
+            ├── predictions
+            │   ├── internlm2-chat-1.8b-turbomind
+            │   ├── llama-3-8b-instruct-lmdeploy
+            │   └── qwen1.5-1.8b-chat-hf
+            ├── results # REASON_RESULTS_DIR
+            │   ├── internlm2-chat-1.8b-turbomind
+            │   ├── llama-3-8b-instruct-lmdeploy
+            │   └── qwen1.5-1.8b-chat-hf
+            └── summary
+                ├── summary_20240605_205328.csv # REASON_SUMMARY_CSV
+                └── summary_20240605_205328.txt
+```
+### 3. 生成分析结果
+```bash
+cd ${path_to_CHARM_repo}
+
+# 生成论文中的Table5, Table6, Table9 and Table10，详见https://arxiv.org/abs/2403.14112
+PYTHONPATH=. python tools/summarize_reasoning.py ${REASON_SUMMARY_CSV}
+
+# 生成论文中的Figure3 and Figure9，详见https://arxiv.org/abs/2403.14112
+PYTHONPATH=. python tools/summarize_mem_rea.py ${REASON_SUMMARY_CSV} ${MEMORY_SUMMARY_CSV}
+
+# 生成论文中的Table7, Table12, Table13 and Figure11，详见https://arxiv.org/abs/2403.14112
+PYTHONPATH=. python tools/analyze_mem_indep_rea.py data/CHARM ${REASON_RESULTS_DIR} ${MEMORY_SUMMARY_DIR} ${MEMORY_SUMMARY_CSV}
+```
+
+## 🖊️ 引用
+```bibtex
+@misc{sun2024benchmarking,
+      title={Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations},
+      author={Jiaxing Sun and Weiquan Huang and Jiang Wu and Chenya Gu and Wei Li and Songyang Zhang and Hang Yan and Conghui He},
+      year={2024},
+      eprint={2403.14112},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL}
+}
+```
--- a/opencompass/configs/datasets/CHARM/charm_memory_gen_bbbd53.py
+++ b/opencompass/configs/datasets/CHARM/charm_memory_gen_bbbd53.py
+import os
+from mmengine.config import read_base
+
+from opencompass.openicl.icl_prompt_template import PromptTemplate
+from opencompass.openicl.icl_retriever import ZeroRetriever
+from opencompass.openicl.icl_inferencer import GenInferencer
+from opencompass.datasets import CharmDataset, CharmMemoryEvaluator, LMEvaluator
+
+with read_base():
+    from .charm_memory_settings import charm_memory_tasks, judge_system_prompts, dataset_path
+
+charm_memory_datasets = []
+
+for _task in charm_memory_tasks:
+
+    charm_memory_reader_cfg = dict(input_columns=['input'],
+                                   output_column='target')
+
+    charm_memory_infer_cfg = dict(
+        prompt_template=dict(
+            type=PromptTemplate,
+            template=dict(round=[
+                dict(role='HUMAN', prompt='请尽可能简短地回答下述问题。\n问题：{input}\n答：')
+            ]),
+        ),
+        retriever=dict(type=ZeroRetriever),
+        inferencer=dict(type=GenInferencer, max_out_len=512),
+    )
+
+    if _task == 'Chinese_Movie_and_Music_Recommendation':
+        charm_memory_eval_cfg = dict(
+            evaluator=dict(type=CharmMemoryEvaluator),
+            pred_role='BOT',
+        )
+    else:
+        judge_system_prompt = judge_system_prompts[_task]
+        charm_memory_eval_cfg = dict(
+            evaluator=dict(
+                type=LMEvaluator,
+                prompt_template=dict(
+                    type=PromptTemplate,
+                    template=dict(round=[
+                        dict(
+                            role='HUMAN',
+                            prompt=judge_system_prompt +
+                            "\n\n[Question]\n{input}\n[The Start of Reference Answer]\n{target}\n[The End of Reference Answer]\n\n[The Start of Assistant's Answer]\n{prediction}\n[The End of Assistant's Answer]"  # noqa
+                        ),
+                    ]),
+                ),
+            ),
+            pred_role='BOT',
+        )
+
+    charm_memory_datasets.append(
+        dict(
+            type=CharmDataset,
+            path=dataset_path,
+            name=_task,
+            abbr='charm-memory-' + _task,
+            reader_cfg=charm_memory_reader_cfg,
+            infer_cfg=charm_memory_infer_cfg.copy(),
+            eval_cfg=charm_memory_eval_cfg.copy(),
+        ))
--- a/opencompass/configs/datasets/CHARM/charm_memory_settings.py
+++ b/opencompass/configs/datasets/CHARM/charm_memory_settings.py
+import os
+
+charm_memory_tasks = [
+    'Chinese_Anachronisms_Judgment',
+    'Chinese_Movie_and_Music_Recommendation',
+    'Chinese_Sport_Understanding',
+    'Chinese_Time_Understanding',
+]
+
+dataset_path = 'data/CHARM/memorization'
+
+system_prompt_template = """Please act as an impartial judge, comparing the responses of the AI assistants to the reference answer and determining if the answers are correct.
+You will receive the reference answer provided by a human and the responses of the AI assistants.
+Your task is to judge whether the AI assistant's answers is correct.
+{task_specific_prompt}
+After providing your explanation, strictly output your final judgment in the following format: “[正确]” if the AI assistant's response is correct, “[错误]” if the AI assistant's response is incorrect.
+"""
+
+task_specific_prompts = {
+    'Chinese_Anachronisms_Judgment':
+    "If the provided reference answer is a list, the model's prediction is considered correct if it matches any item in the list.",
+    'Chinese_Time_Understanding':
+    "When evaluating the AI assistant's response regarding Chinese solar terms, as long as the AI assistant's response falls within the time frame provided in the reference answer, consider it correct.",
+    'Chinese_Sport_Understanding':
+    "If the provided reference answer is a list, the model's prediction is considered correct if it matches any item in the list."
+}
+
+judge_system_prompts = {
+    k: system_prompt_template.format(task_specific_prompt=v)
+    for k, v in task_specific_prompts.items()
+}
--- a/opencompass/configs/datasets/CHARM/charm_reason_cot_only_gen_f7b7d3.py
+++ b/opencompass/configs/datasets/CHARM/charm_reason_cot_only_gen_f7b7d3.py
+import os
+from mmengine.config import read_base
+
+from opencompass.openicl.icl_prompt_template import PromptTemplate
+from opencompass.openicl.icl_retriever import ZeroRetriever
+from opencompass.openicl.icl_inferencer import GenInferencer
+from opencompass.datasets import CharmDataset, charm_reason_postprocess, CharmReasonEvaluator
+
+with read_base():
+    from .charm_reason_settings import charm_tasks, settings
+
+settings = [s for s in settings if s[0] in ['ZH-CoT', 'EN-CoT']]
+
+charm_reason_datasets = []
+
+for _cot, _cot_prefix, dataset_path, fewshot_example_path, prompt_template in settings:
+    for _task in charm_tasks:
+        _fewshot_example_file = os.path.join(fewshot_example_path, f'{_task}_{_cot}.txt')
+        with open(_fewshot_example_file, 'r') as f:
+            _hint = f.read()
+
+        charm_reason_reader_cfg = dict(input_columns=['input'], output_column='target')
+
+        charm_reason_infer_cfg = dict(
+            prompt_template=dict(
+                type=PromptTemplate,
+                template=dict(round=[dict(role='HUMAN', prompt=prompt_template.format(_hint=_hint) + _cot_prefix)]),
+            ),
+            retriever=dict(type=ZeroRetriever),
+            inferencer=dict(type=GenInferencer, max_out_len=512),
+        )
+
+        charm_reason_eval_cfg = dict(
+            evaluator=dict(type=CharmReasonEvaluator),
+            pred_role='BOT',
+            pred_postprocessor=dict(type=charm_reason_postprocess),
+            dataset_postprocessor=dict(type=charm_reason_postprocess),
+        )
+
+        charm_reason_datasets.append(
+            dict(
+                type=CharmDataset,
+                path=dataset_path,
+                name=_task,
+                abbr='charm-reason-' + _task + '_' + _cot,
+                reader_cfg=charm_reason_reader_cfg,
+                infer_cfg=charm_reason_infer_cfg.copy(),
+                eval_cfg=charm_reason_eval_cfg.copy(),
+            )
+        )