Skip to content
GitLab
Menu
Projects
Groups
Snippets
Loading...
Help
Help
Support
Community forum
Keyboard shortcuts
?
Submit feedback
Contribute to GitLab
Sign in / Register
Toggle navigation
Menu
Open sidebar
gaoqiong
lm-evaluation-harness
Commits
44a602ab
Commit
44a602ab
authored
Jun 25, 2024
by
haileyschoelkopf
Browse files
add many explicit group configs
parent
c9801daf
Changes
69
Hide whitespace changes
Inline
Side-by-side
Showing
20 changed files
with
35 additions
and
21 deletions
+35
-21
lm_eval/tasks/csatqa/_csatqa.yaml
lm_eval/tasks/csatqa/_csatqa.yaml
+17
-0
lm_eval/tasks/csatqa/_default_csatqa_yaml
lm_eval/tasks/csatqa/_default_csatqa_yaml
+0
-1
lm_eval/tasks/fld/fld_default.yaml
lm_eval/tasks/fld/fld_default.yaml
+0
-2
lm_eval/tasks/french_bench/README.md
lm_eval/tasks/french_bench/README.md
+2
-2
lm_eval/tasks/french_bench/french_bench_arc_challenge.yaml
lm_eval/tasks/french_bench/french_bench_arc_challenge.yaml
+1
-1
lm_eval/tasks/french_bench/french_bench_boolqa.yaml
lm_eval/tasks/french_bench/french_bench_boolqa.yaml
+1
-1
lm_eval/tasks/french_bench/french_bench_fquadv2.yaml
lm_eval/tasks/french_bench/french_bench_fquadv2.yaml
+1
-1
lm_eval/tasks/french_bench/french_bench_fquadv2_bool.yaml
lm_eval/tasks/french_bench/french_bench_fquadv2_bool.yaml
+1
-1
lm_eval/tasks/french_bench/french_bench_fquadv2_genq.yaml
lm_eval/tasks/french_bench/french_bench_fquadv2_genq.yaml
+1
-1
lm_eval/tasks/french_bench/french_bench_fquadv2_hasAns.yaml
lm_eval/tasks/french_bench/french_bench_fquadv2_hasAns.yaml
+1
-1
lm_eval/tasks/french_bench/french_bench_grammar.yaml
lm_eval/tasks/french_bench/french_bench_grammar.yaml
+1
-1
lm_eval/tasks/french_bench/french_bench_hellaswag.yaml
lm_eval/tasks/french_bench/french_bench_hellaswag.yaml
+1
-1
lm_eval/tasks/french_bench/french_bench_multifquad.yaml
lm_eval/tasks/french_bench/french_bench_multifquad.yaml
+1
-1
lm_eval/tasks/french_bench/french_bench_opus_perplexity.yaml
lm_eval/tasks/french_bench/french_bench_opus_perplexity.yaml
+1
-1
lm_eval/tasks/french_bench/french_bench_orangesum_abstract.yaml
...l/tasks/french_bench/french_bench_orangesum_abstract.yaml
+1
-1
lm_eval/tasks/french_bench/french_bench_orangesum_title.yaml
lm_eval/tasks/french_bench/french_bench_orangesum_title.yaml
+1
-1
lm_eval/tasks/french_bench/french_bench_reading_comp.yaml
lm_eval/tasks/french_bench/french_bench_reading_comp.yaml
+1
-1
lm_eval/tasks/french_bench/french_bench_topic_based_nli.yaml
lm_eval/tasks/french_bench/french_bench_topic_based_nli.yaml
+1
-1
lm_eval/tasks/french_bench/french_bench_trivia.yaml
lm_eval/tasks/french_bench/french_bench_trivia.yaml
+1
-1
lm_eval/tasks/french_bench/french_bench_vocab.yaml
lm_eval/tasks/french_bench/french_bench_vocab.yaml
+1
-1
No files found.
lm_eval/tasks/csatqa/_csatqa.yaml
0 → 100644
View file @
44a602ab
group
:
csatqa
task
:
-
csatqa_gr
-
csatqa_li
-
csatqa_rch
-
csatqa_rcs
-
csatqa_rcss
-
csatqa_wr
aggregate_metric_list
:
-
metric
:
acc
aggregation
:
mean
weight_by_size
:
true
-
metric
:
acc_norm
aggregation
:
mean
weight_by_size
:
true
metadata
:
version
:
0.0
lm_eval/tasks/csatqa/_default_csatqa_yaml
View file @
44a602ab
group: csatqa
dataset_path: EleutherAI/csatqa
dataset_path: EleutherAI/csatqa
test_split: test
test_split: test
output_type: multiple_choice
output_type: multiple_choice
...
...
lm_eval/tasks/fld/fld_default.yaml
View file @
44a602ab
group
:
-
fld
task
:
fld_default
task
:
fld_default
dataset_path
:
hitachi-nlp/FLD.v2
dataset_path
:
hitachi-nlp/FLD.v2
dataset_name
:
default
dataset_name
:
default
...
...
lm_eval/tasks/french_bench/README.md
View file @
44a602ab
...
@@ -20,9 +20,9 @@ This benchmark is constructed both from openly available datasets, as well as ne
...
@@ -20,9 +20,9 @@ This benchmark is constructed both from openly available datasets, as well as ne
}
}
```
```
### Groups and Tasks
### Groups
, Tags,
and Tasks
####
Group
s
####
Tag
s
-
`french_bench`
: All tasks (non-perplexity based)
-
`french_bench`
: All tasks (non-perplexity based)
-
`french_bench_gen`
: All official generative tasks
-
`french_bench_gen`
: All official generative tasks
...
...
lm_eval/tasks/french_bench/french_bench_arc_challenge.yaml
View file @
44a602ab
group
:
tag
:
-
french_bench
-
french_bench
-
french_bench_mc
-
french_bench_mc
task
:
french_bench_arc_challenge
task
:
french_bench_arc_challenge
...
...
lm_eval/tasks/french_bench/french_bench_boolqa.yaml
View file @
44a602ab
include
:
"
_default_template_yaml"
include
:
"
_default_template_yaml"
group
:
tag
:
-
french_bench
-
french_bench
-
french_bench_extra
-
french_bench_extra
description
:
"
D'après
l'information
dans
le
contexte
donné,
quelle
est
la
réponse
à
la
question
?"
description
:
"
D'après
l'information
dans
le
contexte
donné,
quelle
est
la
réponse
à
la
question
?"
...
...
lm_eval/tasks/french_bench/french_bench_fquadv2.yaml
View file @
44a602ab
include
:
"
_default_template_yaml"
include
:
"
_default_template_yaml"
group
:
tag
:
-
french_bench
-
french_bench
-
french_bench_extra
-
french_bench_extra
description
:
"
D'après
l'information
dans
le
contexte
donné,
donne
la
réponse
à
la
question
en
citant
quelques
mots
du
contexte.
Si
il
est
impossible
de
répondre
avec
les
informations
du
contexte,
répond
'Impossible'."
description
:
"
D'après
l'information
dans
le
contexte
donné,
donne
la
réponse
à
la
question
en
citant
quelques
mots
du
contexte.
Si
il
est
impossible
de
répondre
avec
les
informations
du
contexte,
répond
'Impossible'."
...
...
lm_eval/tasks/french_bench/french_bench_fquadv2_bool.yaml
View file @
44a602ab
include
:
"
_default_template_yaml"
include
:
"
_default_template_yaml"
group
:
tag
:
-
french_bench
-
french_bench
-
french_bench_extra
-
french_bench_extra
description
:
"
D'après
l'information
présente
dans
le
contexte,
est
il
possible
de
répondre
à
la
question
?"
description
:
"
D'après
l'information
présente
dans
le
contexte,
est
il
possible
de
répondre
à
la
question
?"
...
...
lm_eval/tasks/french_bench/french_bench_fquadv2_genq.yaml
View file @
44a602ab
include
:
"
_default_template_yaml"
include
:
"
_default_template_yaml"
group
:
tag
:
-
french_bench
-
french_bench
-
french_bench_gen
-
french_bench_gen
description
:
"
D'après
l'information
dans
le
contexte
donné,
quelle
question
a
été
posée
pour
obtenir
la
réponse
donnée
?"
description
:
"
D'après
l'information
dans
le
contexte
donné,
quelle
question
a
été
posée
pour
obtenir
la
réponse
donnée
?"
...
...
lm_eval/tasks/french_bench/french_bench_fquadv2_hasAns.yaml
View file @
44a602ab
include
:
"
_default_template_yaml"
include
:
"
_default_template_yaml"
group
:
tag
:
-
french_bench
-
french_bench
-
french_bench_gen
-
french_bench_gen
description
:
"
D'après
l'information
dans
le
contexte
donné,
donne
la
réponse
à
la
question
en
citant
quelques
mots
du
contexte.
Si
il
est
impossible
de
répondre
avec
les
informations
du
contexte,
répond
'Impossible'."
description
:
"
D'après
l'information
dans
le
contexte
donné,
donne
la
réponse
à
la
question
en
citant
quelques
mots
du
contexte.
Si
il
est
impossible
de
répondre
avec
les
informations
du
contexte,
répond
'Impossible'."
...
...
lm_eval/tasks/french_bench/french_bench_grammar.yaml
View file @
44a602ab
include
:
"
_default_template_yaml"
include
:
"
_default_template_yaml"
group
:
tag
:
-
french_bench
-
french_bench
-
french_bench_mc
-
french_bench_mc
description
:
"
Répond
au
mieux
en
complétant
la
question
avec
une
des
réponses
proposées."
description
:
"
Répond
au
mieux
en
complétant
la
question
avec
une
des
réponses
proposées."
...
...
lm_eval/tasks/french_bench/french_bench_hellaswag.yaml
View file @
44a602ab
group
:
tag
:
-
french_bench
-
french_bench
-
french_bench_mc
-
french_bench_mc
task
:
french_bench_hellaswag
task
:
french_bench_hellaswag
...
...
lm_eval/tasks/french_bench/french_bench_multifquad.yaml
View file @
44a602ab
include
:
"
_default_template_yaml"
include
:
"
_default_template_yaml"
group
:
tag
:
-
french_bench
-
french_bench
-
french_bench_gen
-
french_bench_gen
description
:
"
D'après
l'information
dans
le
contexte
donné,
donne
la
réponse
à
la
question
en
citant
quelques
extraits
du
contexte."
description
:
"
D'après
l'information
dans
le
contexte
donné,
donne
la
réponse
à
la
question
en
citant
quelques
extraits
du
contexte."
...
...
lm_eval/tasks/french_bench/french_bench_opus_perplexity.yaml
View file @
44a602ab
group
:
tag
:
-
french_bench_perplexity
-
french_bench_perplexity
task
:
french_bench_opus_perplexity
task
:
french_bench_opus_perplexity
dataset_path
:
manu/opus100-en-fr
dataset_path
:
manu/opus100-en-fr
...
...
lm_eval/tasks/french_bench/french_bench_orangesum_abstract.yaml
View file @
44a602ab
include
:
"
_default_template_yaml"
include
:
"
_default_template_yaml"
group
:
tag
:
-
french_bench
-
french_bench
-
french_bench_gen
-
french_bench_gen
description
:
"
Résume
l'article
en
une
phrase."
description
:
"
Résume
l'article
en
une
phrase."
...
...
lm_eval/tasks/french_bench/french_bench_orangesum_title.yaml
View file @
44a602ab
include
:
"
_default_template_yaml"
include
:
"
_default_template_yaml"
group
:
tag
:
-
french_bench
-
french_bench
-
french_bench_extra
-
french_bench_extra
description
:
"
Trouve
le
titre
de
l'article."
description
:
"
Trouve
le
titre
de
l'article."
...
...
lm_eval/tasks/french_bench/french_bench_reading_comp.yaml
View file @
44a602ab
include
:
"
_default_template_yaml"
include
:
"
_default_template_yaml"
group
:
tag
:
-
french_bench
-
french_bench
-
french_bench_extra
-
french_bench_extra
# description: "Répond au mieux en complétant la question avec une des réponses proposées."
# description: "Répond au mieux en complétant la question avec une des réponses proposées."
...
...
lm_eval/tasks/french_bench/french_bench_topic_based_nli.yaml
View file @
44a602ab
include
:
"
_default_template_yaml"
include
:
"
_default_template_yaml"
group
:
tag
:
-
french_bench
-
french_bench
-
french_bench_extra
-
french_bench_extra
description
:
"
A
propos
du
thème
spécifié,
l'avis
client
est
il
positif,
négatif,
ou
neutre
?"
description
:
"
A
propos
du
thème
spécifié,
l'avis
client
est
il
positif,
négatif,
ou
neutre
?"
...
...
lm_eval/tasks/french_bench/french_bench_trivia.yaml
View file @
44a602ab
include
:
"
_default_template_yaml"
include
:
"
_default_template_yaml"
group
:
tag
:
-
french_bench
-
french_bench
-
french_bench_gen
-
french_bench_gen
task
:
french_bench_trivia
task
:
french_bench_trivia
...
...
lm_eval/tasks/french_bench/french_bench_vocab.yaml
View file @
44a602ab
include
:
"
_default_template_yaml"
include
:
"
_default_template_yaml"
group
:
tag
:
-
french_bench
-
french_bench
-
french_bench_mc
-
french_bench_mc
# description: "Répond au mieux en complétant la question avec une des réponses proposées."
# description: "Répond au mieux en complétant la question avec une des réponses proposées."
...
...
Prev
1
2
3
4
Next
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
.
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment