add qwen and deepseek configs (#672)

3a354bd1 · Fengzhe Zhou · GitHub · 1c95790f · 3a354bd1 · 3a354bd1
Unverified Commit 3a354bd1 authored Dec 07, 2023 by Fengzhe Zhou Committed by GitHub Dec 07, 2023
8 changed files
--- a/configs/models/deepseek/hf_deepseek_67b_base.py
+++ b/configs/models/deepseek/hf_deepseek_67b_base.py
+from opencompass.models import HuggingFaceCausalLM
+models = [
+    dict(
+        type=HuggingFaceCausalLM,
+        abbr='deepseek-67b-base-hf',
+        path="deepseek-ai/deepseek-llm-67b-base",
+        tokenizer_path='deepseek-ai/deepseek-llm-67b-base',
+        model_kwargs=dict(
+            device_map='auto',
+            trust_remote_code=True,
+        ),
+        tokenizer_kwargs=dict(
+            padding_side='left',
+            truncation_side='left',
+            trust_remote_code=True,
+            use_fast=False,
+        ),
+        max_out_len=100,
+        max_seq_len=2048,
+        batch_size=8,
+        run_cfg=dict(num_gpus=4, num_procs=1),
+    )
+]
--- a/configs/models/deepseek/hf_deepseek_67b_chat.py
+++ b/configs/models/deepseek/hf_deepseek_67b_chat.py
+from opencompass.models import HuggingFaceCausalLM
+_meta_template = dict(
+    round=[
+        dict(role="HUMAN", begin='User: ', end='\n\n'),
+        dict(role="BOT", begin="Assistant: ", end='<｜end▁of▁sentence｜>', generate=True),
+    ],
+)
+models = [
+    dict(
+        type=HuggingFaceCausalLM,
+        abbr='deepseek-67b-chat-hf',
+        path="deepseek-ai/deepseek-llm-67b-chat",
+        tokenizer_path='deepseek-ai/deepseek-llm-67b-chat',
+        model_kwargs=dict(
+            device_map='auto',
+            trust_remote_code=True,
+        ),
+        tokenizer_kwargs=dict(
+            padding_side='left',
+            truncation_side='left',
+            trust_remote_code=True,
+            use_fast=False,
+        ),
+        meta_template=_meta_template,
+        max_out_len=100,
+        max_seq_len=2048,
+        batch_size=8,
+        run_cfg=dict(num_gpus=4, num_procs=1),
+    )
+]
--- a/configs/models/deepseek/hf_deepseek_7b_base.py
+++ b/configs/models/deepseek/hf_deepseek_7b_base.py
+from opencompass.models import HuggingFaceCausalLM
+models = [
+    dict(
+        type=HuggingFaceCausalLM,
+        abbr='deepseek-7b-base-hf',
+        path="deepseek-ai/deepseek-llm-7b-base",
+        tokenizer_path='deepseek-ai/deepseek-llm-7b-base',
+        model_kwargs=dict(
+            device_map='auto',
+            trust_remote_code=True,
+        ),
+        tokenizer_kwargs=dict(
+            padding_side='left',
+            truncation_side='left',
+            trust_remote_code=True,
+            use_fast=False,
+        ),
+        max_out_len=100,
+        max_seq_len=2048,
+        batch_size=8,
+        run_cfg=dict(num_gpus=1, num_procs=1),
+    )
+]
--- a/configs/models/deepseek/hf_deepseek_7b_chat.py
+++ b/configs/models/deepseek/hf_deepseek_7b_chat.py
+from opencompass.models import HuggingFaceCausalLM
+_meta_template = dict(
+    round=[
+        dict(role="HUMAN", begin='User: ', end='\n\n'),
+        dict(role="BOT", begin="Assistant: ", end='<｜end▁of▁sentence｜>', generate=True),
+    ],
+)
+models = [
+    dict(
+        type=HuggingFaceCausalLM,
+        abbr='deepseek-7b-chat-hf',
+        path="deepseek-ai/deepseek-llm-7b-chat",
+        tokenizer_path='deepseek-ai/deepseek-llm-7b-chat',
+        model_kwargs=dict(
+            device_map='auto',
+            trust_remote_code=True,
+        ),
+        tokenizer_kwargs=dict(
+            padding_side='left',
+            truncation_side='left',
+            trust_remote_code=True,
+            use_fast=False,
+        ),
+        meta_template=_meta_template,
+        max_out_len=100,
+        max_seq_len=2048,
+        batch_size=8,
+        run_cfg=dict(num_gpus=1, num_procs=1),
+    )
+]
--- a/configs/models/qwen/hf_qwen_1_8b.py
+++ b/configs/models/qwen/hf_qwen_1_8b.py
+from opencompass.models import HuggingFaceCausalLM
+models = [
+    dict(
+        type=HuggingFaceCausalLM,
+        abbr='qwen-1.8b-hf',
+        path="Qwen/Qwen-1_8B",
+        tokenizer_path='Qwen/Qwen-1_8B',
+        model_kwargs=dict(
+            device_map='auto',
+            trust_remote_code=True,
+        ),
+        tokenizer_kwargs=dict(
+            padding_side='left',
+            truncation_side='left',
+            trust_remote_code=True,
+            use_fast=False,
+        ),
+        pad_token_id=151643,
+        max_out_len=100,
+        max_seq_len=2048,
+        batch_size=8,
+        run_cfg=dict(num_gpus=1, num_procs=1),
+    )
+]
--- a/configs/models/qwen/hf_qwen_1_8b_chat.py
+++ b/configs/models/qwen/hf_qwen_1_8b_chat.py
+from opencompass.models import HuggingFaceCausalLM
+_meta_template = dict(
+    round=[
+        dict(role="HUMAN", begin='\n<|im_start|>user\n', end='<|im_end|>'),
+        dict(role="BOT", begin="\n<|im_start|>assistant\n", end='<|im_end|>', generate=True),
+    ],
+)
+models = [
+    dict(
+        type=HuggingFaceCausalLM,
+        abbr='qwen-1.8b-chat-hf',
+        path="Qwen/Qwen-1_8B-Chat",
+        tokenizer_path='Qwen/Qwen-1_8B-Chat',
+        model_kwargs=dict(
+            device_map='auto',
+            trust_remote_code=True
+        ),
+        tokenizer_kwargs=dict(
+            padding_side='left',
+            truncation_side='left',
+            trust_remote_code=True,
+            use_fast=False,),
+        pad_token_id=151643,
+        max_out_len=100,
+        max_seq_len=2048,
+        batch_size=8,
+        meta_template=_meta_template,
+        run_cfg=dict(num_gpus=1, num_procs=1),
+    )
+]
--- a/configs/models/qwen/hf_qwen_72b.py
+++ b/configs/models/qwen/hf_qwen_72b.py
+from opencompass.models import HuggingFaceCausalLM
+models = [
+    dict(
+        type=HuggingFaceCausalLM,
+        abbr='qwen-72b-hf',
+        path="Qwen/Qwen-72B",
+        tokenizer_path='Qwen/Qwen-72B',
+        model_kwargs=dict(
+            device_map='auto',
+            trust_remote_code=True,
+        ),
+        tokenizer_kwargs=dict(
+            padding_side='left',
+            truncation_side='left',
+            trust_remote_code=True,
+            use_fast=False,
+        ),
+        pad_token_id=151643,
+        max_out_len=100,
+        max_seq_len=2048,
+        batch_size=8,
+        run_cfg=dict(num_gpus=4, num_procs=1),
+    )
+]
--- a/configs/models/qwen/hf_qwen_72b_chat.py
+++ b/configs/models/qwen/hf_qwen_72b_chat.py
+from opencompass.models import HuggingFaceCausalLM
+_meta_template = dict(
+    round=[
+        dict(role="HUMAN", begin='\n<|im_start|>user\n', end='<|im_end|>'),
+        dict(role="BOT", begin="\n<|im_start|>assistant\n", end='<|im_end|>', generate=True),
+    ],
+)
+models = [
+    dict(
+        type=HuggingFaceCausalLM,
+        abbr='qwen-72b-chat-hf',
+        path="Qwen/Qwen-72B-Chat",
+        tokenizer_path='Qwen/Qwen-72B-Chat',
+        model_kwargs=dict(
+            device_map='auto',
+            trust_remote_code=True
+        ),
+        tokenizer_kwargs=dict(
+            padding_side='left',
+            truncation_side='left',
+            trust_remote_code=True,
+            use_fast=False,),
+        pad_token_id=151643,
+        max_out_len=100,
+        max_seq_len=2048,
+        batch_size=8,
+        meta_template=_meta_template,
+        run_cfg=dict(num_gpus=4, num_procs=1),
+    )
+]