init

3041681f · silencealiang · 291fc518 · 3041681f · 3041681f · 3041681f
Commit 3041681f authored Mar 19, 2025 by silencealiang
20 changed files
--- a/Bigcode-Evaluation-Harness-240327/bigcode_eval/utils.py
+++ b/Bigcode-Evaluation-Harness-240327/bigcode_eval/utils.py
--- a/Bigcode-Evaluation-Harness-240327/docs/README.md
+++ b/Bigcode-Evaluation-Harness-240327/docs/README.md
--- a/Bigcode-Evaluation-Harness-240327/docs/guide.md
+++ b/Bigcode-Evaluation-Harness-240327/docs/guide.md
--- a/Bigcode-Evaluation-Harness-240327/finetuning/APPS/README.md
+++ b/Bigcode-Evaluation-Harness-240327/finetuning/APPS/README.md
+# APPS finetuning
+In this folder we show how to train an autoregressive Language model on APPS dataset, since a common way to evaluate on this benchmark is after finetuning the model on its training split.
+We use Hugging Face [Trainer](https://huggingface.co/docs/transformers/main_classes/trainer) which supports distributed training on multiple GPUs.
+## Setup
+First login to Weights & Biases
+```
+wandb login
+```
+You can finetune a model, `gpt_345_python_any_license` for example, by running:
+```python
+# we use a global batch size of 256, here = 8 (GPUs) * 2 (batch_size_per_device) * 16 (gradient_accumulation)
+python apps_train.py \
+        --model_ckpt BigCode/gpt_345_python_any_license \
+        --num_epochs 10 \
+        --batch_size 2 \
+        --gradient_accumulation_steps 16 \
+        --learning_rate 5e-5 \
+        --eval_freq 250 \
+        --fp16
+```
+The fine-tuning takes 11h on 4 A100 GPUs.
+## Acknowledgments
+This script is adapted from [APPS repository](https://github.com/hendrycks/apps).
\ No newline at end of file
--- a/Bigcode-Evaluation-Harness-240327/finetuning/APPS/apps_dataset.py
+++ b/Bigcode-Evaluation-Harness-240327/finetuning/APPS/apps_dataset.py
--- a/Bigcode-Evaluation-Harness-240327/finetuning/APPS/apps_train.py
+++ b/Bigcode-Evaluation-Harness-240327/finetuning/APPS/apps_train.py
--- a/Bigcode-Evaluation-Harness-240327/finetuning/Code-to-text/README.md
+++ b/Bigcode-Evaluation-Harness-240327/finetuning/Code-to-text/README.md
--- a/Bigcode-Evaluation-Harness-240327/finetuning/Code-to-text/train.py
+++ b/Bigcode-Evaluation-Harness-240327/finetuning/Code-to-text/train.py
--- a/Bigcode-Evaluation-Harness-240327/finetuning/CodeClone/README.md
+++ b/Bigcode-Evaluation-Harness-240327/finetuning/CodeClone/README.md
--- a/Bigcode-Evaluation-Harness-240327/finetuning/CodeClone/train.py
+++ b/Bigcode-Evaluation-Harness-240327/finetuning/CodeClone/train.py
--- a/Bigcode-Evaluation-Harness-240327/finetuning/CodeComplex/README.md
+++ b/Bigcode-Evaluation-Harness-240327/finetuning/CodeComplex/README.md
--- a/Bigcode-Evaluation-Harness-240327/finetuning/CodeComplex/train.py
+++ b/Bigcode-Evaluation-Harness-240327/finetuning/CodeComplex/train.py
--- a/Bigcode-Evaluation-Harness-240327/finetuning/CodeDefect/README.md
+++ b/Bigcode-Evaluation-Harness-240327/finetuning/CodeDefect/README.md
--- a/Bigcode-Evaluation-Harness-240327/finetuning/CodeDefect/train.py
+++ b/Bigcode-Evaluation-Harness-240327/finetuning/CodeDefect/train.py
--- a/Bigcode-Evaluation-Harness-240327/finetuning/README.md
+++ b/Bigcode-Evaluation-Harness-240327/finetuning/README.md
--- a/Bigcode-Evaluation-Harness-240327/leaderboard/README.md
+++ b/Bigcode-Evaluation-Harness-240327/leaderboard/README.md
--- a/Bigcode-Evaluation-Harness-240327/leaderboard/group_jsons.py
+++ b/Bigcode-Evaluation-Harness-240327/leaderboard/group_jsons.py
--- a/Bigcode-Evaluation-Harness-240327/leaderboard/multiple_eval.slurm
+++ b/Bigcode-Evaluation-Harness-240327/leaderboard/multiple_eval.slurm
--- a/Bigcode-Evaluation-Harness-240327/leaderboard/throughput_config.yaml
+++ b/Bigcode-Evaluation-Harness-240327/leaderboard/throughput_config.yaml
--- a/Bigcode-Evaluation-Harness-240327/main.py
+++ b/Bigcode-Evaluation-Harness-240327/main.py