[llama] fix neftune & pbar with start_step (#5364)

44ca61a2 · Camille Zhong · GitHub · a4cec171 · 44ca61a2 · 44ca61a2
Unverified Commit 44ca61a2 authored Feb 05, 2024 by Camille Zhong Committed by GitHub Feb 05, 2024
Showing with 3 additions and 3 deletions

applications/Colossal-LLaMA-2/colossal_llama2/utils/neftune_patch.py ...s/Colossal-LLaMA-2/colossal_llama2/utils/neftune_patch.py +1 -1

applications/Colossal-LLaMA-2/train.py applications/Colossal-LLaMA-2/train.py +2 -2

No files found.
--- a/applications/Colossal-LLaMA-2/colossal_llama2/utils/neftune_patch.py
+++ b/applications/Colossal-LLaMA-2/colossal_llama2/utils/neftune_patch.py
@@ -17,7 +17,7 @@ import torch

 def unwrap(model):
    if hasattr(model, "module"):
-        return unwrap_model(model.module)
+        return model.unwrap()
    else:
        return model


--- a/applications/Colossal-LLaMA-2/train.py
+++ b/applications/Colossal-LLaMA-2/train.py
@@ -329,9 +329,9 @@ def main() -> None:

    for epoch in range(start_epoch, args.num_epochs):
        dataloader.sampler.set_epoch(epoch=epoch)
-        pbar = tqdm(desc=f"Epoch {epoch}", disable=not coordinator.is_master(), total=num_steps_per_epoch)
+        pbar = tqdm(desc=f"Epoch {epoch}", disable=not coordinator.is_master(), total=num_steps_per_epoch, initial=start_step // args.accumulation_steps)
        total_loss = torch.tensor(0.0, device=get_current_device())
-        for step, batch in enumerate(dataloader):
+        for step, batch in enumerate(dataloader, start=start_step):
            batch = {k: v.to(get_current_device()) for k, v in batch.items() if isinstance(v, torch.Tensor)}

            batch_output = model(**batch)