nohup: ignoring input
WARNING: Logging before InitGoogleLogging() is written to STDERR
I0924 06:47:15.092808  2355 ProcessGroupNCCL.cpp:601] [Rank 0] NCCL watchdog thread started!
I0924 06:47:15.092808  2286 ProcessGroupNCCL.cpp:500] [Rank 0] ProcessGroupNCCL initialized with following options:
NCCL_ASYNC_ERROR_HANDLING: 1
NCCL_BLOCKING_WAIT: 0
TIMEOUT(ms): 3600000
USE_HIGH_PRIORITY_STREAM: 0
NCCL_DEBUG: UNSET
09/24/2022 06:47:15 - WARNING - __main__ - Process rank: 0, device: cuda:0, n_gpu: 1, distributed training: True, 16-bits training: True
09/24/2022 06:47:16 - INFO - __main__ - classifier: token
hidden_size: 768
patches:
  size: !!python/tuple
  - 16
  - 16
representation_size: null
transformer:
  attention_dropout_rate: 0.0
  dropout_rate: 0.1
  mlp_dim: 3072
  num_heads: 12
  num_layers: 12

09/24/2022 06:47:16 - INFO - __main__ - Training parameters Namespace(dataset='cifar10', decay_type='cosine', device=device(type='cuda', index=0), eval_batch_size=64, eval_every=100, fp16=True, fp16_opt_level='O2', gradient_accumulation_steps=1, img_size=224, learning_rate=0.03, local_rank=0, loss_scale=0, max_grad_norm=1.0, model_type='ViT-B_16', n_gpu=1, name='cifar10-100_500', num_steps=500, output_dir='output', pretrained_dir='checkpoint/ViT-B_16.npz', seed=42, train_batch_size=64, warmup_steps=500, weight_decay=0)
09/24/2022 06:47:16 - INFO - __main__ - Total Parameter: 	85.8M
85.806346
Files already downloaded and verified
Files already downloaded and verified
I0924 06:47:18.862012  2286 ProcessGroupNCCL.cpp:1669] Rank 0 using GPU 0 to perform barrier as devices used by this process are currently unknown. This can potentially cause a hang if this rank to GPU mapping is incorrect.Specify device_ids in barrier() to force use of a particular device.
Selected optimization level O2:  FP16 training with FP32 batchnorm and FP32 master weights.

Defaults for this optimization level are:
enabled                    : True
opt_level                  : O2
cast_model_type            : torch.float16
patch_torch_functions      : False
patch_torch_functions_type : None
keep_batchnorm_fp32        : True
master_weights             : True
loss_scale                 : dynamic
Processing user overrides (additional kwargs that are not None)...
After processing overrides, optimization options are:
enabled                    : True
opt_level                  : O2
cast_model_type            : torch.float16
patch_torch_functions      : False
patch_torch_functions_type : None
keep_batchnorm_fp32        : True
master_weights             : True
loss_scale                 : dynamic
09/24/2022 06:47:18 - INFO - __main__ - ***** Running training *****
09/24/2022 06:47:19 - INFO - __main__ -   Total optimization steps = 500
09/24/2022 06:47:19 - INFO - __main__ -   Instantaneous batch size per GPU = 64
09/24/2022 06:47:19 - INFO - __main__ -   Total train batch size (w. parallel, distributed & accumulation) = 64
09/24/2022 06:47:19 - INFO - __main__ -   Gradient Accumulation steps = 1
Training (X / X Steps) (loss=X.X):   0%|| 0/782 [00:00<?, ?it/s]/usr/local/lib/python3.7/site-packages/torch/optim/lr_scheduler.py:125: UserWarning: Seems like `optimizer.step()` has been overridden after learning rate scheduler initialization. Please, make sure to call `optimizer.step()` before `lr_scheduler.step()`. See more details at https://pytorch.org/docs/stable/optim.html#how-to-adjust-learning-rate
  "https://pytorch.org/docs/stable/optim.html#how-to-adjust-learning-rate", UserWarning)
Gradient overflow.  Skipping step, loss scaler 0 reducing loss scale to 524288.0
Training (1 / 500 Steps) (loss=2.47266):   0%|| 0/782 [00:11<?, ?it/s]/usr/local/lib/python3.7/site-packages/torch/optim/lr_scheduler.py:247: UserWarning: To get the last learning rate computed by the scheduler, please use `get_last_lr()`.
  warnings.warn("To get the last learning rate computed by the scheduler, "
Training (1 / 500 Steps) (loss=2.47266):   0%|| 1/782 [00:11<2:27:57, 11.37s/it]Gradient overflow.  Skipping step, loss scaler 0 reducing loss scale to 262144.0
Training (2 / 500 Steps) (loss=2.35742):   0%|| 1/782 [00:12<2:27:57, 11.37s/it]Training (2 / 500 Steps) (loss=2.35742):   0%|| 2/782 [00:12<1:08:59,  5.31s/it]Gradient overflow.  Skipping step, loss scaler 0 reducing loss scale to 131072.0
Training (3 / 500 Steps) (loss=2.32617):   0%|| 2/782 [00:13<1:08:59,  5.31s/it]Training (3 / 500 Steps) (loss=2.32617):   0%|| 3/782 [00:13<43:29,  3.35s/it]  Gradient overflow.  Skipping step, loss scaler 0 reducing loss scale to 65536.0
Training (4 / 500 Steps) (loss=2.43750):   0%|| 3/782 [00:14<43:29,  3.35s/it]Training (4 / 500 Steps) (loss=2.43750):   1%|| 4/782 [00:14<31:30,  2.43s/it]Gradient overflow.  Skipping step, loss scaler 0 reducing loss scale to 32768.0
Training (5 / 500 Steps) (loss=2.36133):   1%|| 4/782 [00:15<31:30,  2.43s/it]Training (5 / 500 Steps) (loss=2.36133):   1%|| 5/782 [00:15<24:53,  1.92s/it]Gradient overflow.  Skipping step, loss scaler 0 reducing loss scale to 16384.0
Training (6 / 500 Steps) (loss=2.39453):   1%|| 5/782 [00:16<24:53,  1.92s/it]Training (6 / 500 Steps) (loss=2.39453):   1%|| 6/782 [00:16<20:54,  1.62s/it]Gradient overflow.  Skipping step, loss scaler 0 reducing loss scale to 8192.0
Training (7 / 500 Steps) (loss=2.52734):   1%|| 6/782 [00:17<20:54,  1.62s/it]Training (7 / 500 Steps) (loss=2.52734):   1%|| 7/782 [00:17<18:24,  1.42s/it]Training (8 / 500 Steps) (loss=2.50977):   1%|| 7/782 [00:18<18:24,  1.42s/it]Training (8 / 500 Steps) (loss=2.50977):   1%|| 8/782 [00:18<16:47,  1.30s/it]Training (9 / 500 Steps) (loss=2.43750):   1%|| 8/782 [00:19<16:47,  1.30s/it]Training (9 / 500 Steps) (loss=2.43750):   1%|| 9/782 [00:19<15:43,  1.22s/it]Training (10 / 500 Steps) (loss=2.46289):   1%|| 9/782 [00:20<15:43,  1.22s/it]Training (10 / 500 Steps) (loss=2.46289):   1%|| 10/782 [00:20<14:57,  1.16s/it]Training (11 / 500 Steps) (loss=2.46680):   1%|| 10/782 [00:21<14:57,  1.16s/it]Training (11 / 500 Steps) (loss=2.46680):   1%|| 11/782 [00:21<14:25,  1.12s/it]Training (12 / 500 Steps) (loss=2.41797):   1%|| 11/782 [00:22<14:25,  1.12s/it]Training (12 / 500 Steps) (loss=2.41797):   2%|| 12/782 [00:22<14:02,  1.09s/it]Training (13 / 500 Steps) (loss=2.42969):   2%|| 12/782 [00:23<14:02,  1.09s/it]Training (13 / 500 Steps) (loss=2.42969):   2%|| 13/782 [00:23<13:45,  1.07s/it]Training (14 / 500 Steps) (loss=2.36523):   2%|| 13/782 [00:24<13:45,  1.07s/it]Training (14 / 500 Steps) (loss=2.36523):   2%|| 14/782 [00:24<13:35,  1.06s/it]Training (15 / 500 Steps) (loss=2.39062):   2%|| 14/782 [00:25<13:35,  1.06s/it]Training (15 / 500 Steps) (loss=2.39062):   2%|| 15/782 [00:25<13:27,  1.05s/it]Training (16 / 500 Steps) (loss=2.39844):   2%|| 15/782 [00:26<13:27,  1.05s/it]Training (16 / 500 Steps) (loss=2.39844):   2%|| 16/782 [00:26<13:21,  1.05s/it]Training (17 / 500 Steps) (loss=2.40430):   2%|| 16/782 [00:27<13:21,  1.05s/it]Training (17 / 500 Steps) (loss=2.40430):   2%|| 17/782 [00:27<13:16,  1.04s/it]Training (18 / 500 Steps) (loss=2.37109):   2%|| 17/782 [00:28<13:16,  1.04s/it]Training (18 / 500 Steps) (loss=2.37109):   2%|| 18/782 [00:28<13:12,  1.04s/it]Training (19 / 500 Steps) (loss=2.35352):   2%|| 18/782 [00:29<13:12,  1.04s/it]Training (19 / 500 Steps) (loss=2.35352):   2%|| 19/782 [00:29<13:08,  1.03s/it]Training (20 / 500 Steps) (loss=2.30078):   2%|| 19/782 [00:30<13:08,  1.03s/it]Training (20 / 500 Steps) (loss=2.30078):   3%|| 20/782 [00:30<13:05,  1.03s/it]Training (21 / 500 Steps) (loss=2.34180):   3%|| 20/782 [00:31<13:05,  1.03s/it]Training (21 / 500 Steps) (loss=2.34180):   3%|| 21/782 [00:31<13:04,  1.03s/it]Training (22 / 500 Steps) (loss=2.31641):   3%|| 21/782 [00:33<13:04,  1.03s/it]Training (22 / 500 Steps) (loss=2.31641):   3%|| 22/782 [00:33<13:03,  1.03s/it]Training (23 / 500 Steps) (loss=2.33008):   3%|| 22/782 [00:34<13:03,  1.03s/it]Training (23 / 500 Steps) (loss=2.33008):   3%|| 23/782 [00:34<13:02,  1.03s/it]Training (24 / 500 Steps) (loss=2.32617):   3%|| 23/782 [00:35<13:02,  1.03s/it]Training (24 / 500 Steps) (loss=2.32617):   3%|| 24/782 [00:35<13:02,  1.03s/it]Training (25 / 500 Steps) (loss=2.35352):   3%|| 24/782 [00:36<13:02,  1.03s/it]Training (25 / 500 Steps) (loss=2.35352):   3%|| 25/782 [00:36<13:00,  1.03s/it]Training (26 / 500 Steps) (loss=2.32422):   3%|| 25/782 [00:37<13:00,  1.03s/it]Training (26 / 500 Steps) (loss=2.32422):   3%|| 26/782 [00:37<13:00,  1.03s/it]Training (27 / 500 Steps) (loss=2.21289):   3%|| 26/782 [00:38<13:00,  1.03s/it]Training (27 / 500 Steps) (loss=2.21289):   3%|| 27/782 [00:38<12:59,  1.03s/it]Training (28 / 500 Steps) (loss=2.26367):   3%|| 27/782 [00:39<12:59,  1.03s/it]Training (28 / 500 Steps) (loss=2.26367):   4%|| 28/782 [00:39<12:58,  1.03s/it]Training (29 / 500 Steps) (loss=2.22461):   4%|| 28/782 [00:40<12:58,  1.03s/it]Training (29 / 500 Steps) (loss=2.22461):   4%|| 29/782 [00:40<12:56,  1.03s/it]Training (30 / 500 Steps) (loss=2.13281):   4%|| 29/782 [00:41<12:56,  1.03s/it]Training (30 / 500 Steps) (loss=2.13281):   4%|| 30/782 [00:41<12:54,  1.03s/it]Training (31 / 500 Steps) (loss=2.32617):   4%|| 30/782 [00:42<12:54,  1.03s/it]Training (31 / 500 Steps) (loss=2.32617):   4%|| 31/782 [00:42<12:53,  1.03s/it]Training (32 / 500 Steps) (loss=2.22656):   4%|| 31/782 [00:43<12:53,  1.03s/it]Training (32 / 500 Steps) (loss=2.22656):   4%|| 32/782 [00:43<12:51,  1.03s/it]Training (33 / 500 Steps) (loss=2.22852):   4%|| 32/782 [00:44<12:51,  1.03s/it]Training (33 / 500 Steps) (loss=2.22852):   4%|| 33/782 [00:44<12:50,  1.03s/it]Training (34 / 500 Steps) (loss=2.18359):   4%|| 33/782 [00:45<12:50,  1.03s/it]Training (34 / 500 Steps) (loss=2.18359):   4%|| 34/782 [00:45<12:50,  1.03s/it]Training (35 / 500 Steps) (loss=2.15430):   4%|| 34/782 [00:46<12:50,  1.03s/it]Training (35 / 500 Steps) (loss=2.15430):   4%|| 35/782 [00:46<12:48,  1.03s/it]Training (36 / 500 Steps) (loss=2.16797):   4%|| 35/782 [00:47<12:48,  1.03s/it]Training (36 / 500 Steps) (loss=2.16797):   5%|| 36/782 [00:47<12:48,  1.03s/it]Training (37 / 500 Steps) (loss=2.21875):   5%|| 36/782 [00:48<12:48,  1.03s/it]Training (37 / 500 Steps) (loss=2.21875):   5%|| 37/782 [00:48<12:49,  1.03s/it]Training (38 / 500 Steps) (loss=2.06641):   5%|| 37/782 [00:49<12:49,  1.03s/it]Training (38 / 500 Steps) (loss=2.06641):   5%|| 38/782 [00:49<12:48,  1.03s/it]Training (39 / 500 Steps) (loss=2.15039):   5%|| 38/782 [00:50<12:48,  1.03s/it]Training (39 / 500 Steps) (loss=2.15039):   5%|| 39/782 [00:50<12:46,  1.03s/it]Training (40 / 500 Steps) (loss=2.06641):   5%|| 39/782 [00:51<12:46,  1.03s/it]Training (40 / 500 Steps) (loss=2.06641):   5%|| 40/782 [00:51<12:45,  1.03s/it]Training (41 / 500 Steps) (loss=2.06641):   5%|| 40/782 [00:52<12:45,  1.03s/it]Training (41 / 500 Steps) (loss=2.06641):   5%|| 41/782 [00:52<12:43,  1.03s/it]Training (42 / 500 Steps) (loss=2.05078):   5%|| 41/782 [00:53<12:43,  1.03s/it]Training (42 / 500 Steps) (loss=2.05078):   5%|| 42/782 [00:53<12:41,  1.03s/it]Training (43 / 500 Steps) (loss=2.10352):   5%|| 42/782 [00:54<12:41,  1.03s/it]Training (43 / 500 Steps) (loss=2.10352):   5%|| 43/782 [00:54<12:39,  1.03s/it]Training (44 / 500 Steps) (loss=2.26367):   5%|| 43/782 [00:55<12:39,  1.03s/it]Training (44 / 500 Steps) (loss=2.26367):   6%|| 44/782 [00:55<13:02,  1.06s/it]Training (45 / 500 Steps) (loss=2.07227):   6%|| 44/782 [00:56<13:02,  1.06s/it]Training (45 / 500 Steps) (loss=2.07227):   6%|| 45/782 [00:56<12:56,  1.05s/it]Training (46 / 500 Steps) (loss=2.11523):   6%|| 45/782 [00:57<12:56,  1.05s/it]Training (46 / 500 Steps) (loss=2.11523):   6%|| 46/782 [00:57<12:49,  1.05s/it]Training (47 / 500 Steps) (loss=2.08594):   6%|| 46/782 [00:58<12:49,  1.05s/it]Training (47 / 500 Steps) (loss=2.08594):   6%|| 47/782 [00:58<12:44,  1.04s/it]Training (48 / 500 Steps) (loss=2.20117):   6%|| 47/782 [00:59<12:44,  1.04s/it]Training (48 / 500 Steps) (loss=2.20117):   6%|| 48/782 [00:59<12:40,  1.04s/it]Training (49 / 500 Steps) (loss=2.27148):   6%|| 48/782 [01:00<12:40,  1.04s/it]Training (49 / 500 Steps) (loss=2.27148):   6%|| 49/782 [01:00<12:38,  1.03s/it]Training (50 / 500 Steps) (loss=2.18164):   6%|| 49/782 [01:01<12:38,  1.03s/it]Training (50 / 500 Steps) (loss=2.18164):   6%|| 50/782 [01:01<12:37,  1.03s/it]Training (51 / 500 Steps) (loss=2.23633):   6%|| 50/782 [01:02<12:37,  1.03s/it]Training (51 / 500 Steps) (loss=2.23633):   7%|| 51/782 [01:02<12:34,  1.03s/it]Training (52 / 500 Steps) (loss=2.14453):   7%|| 51/782 [01:04<12:34,  1.03s/it]Training (52 / 500 Steps) (loss=2.14453):   7%|| 52/782 [01:04<12:33,  1.03s/it]Training (53 / 500 Steps) (loss=2.01953):   7%|| 52/782 [01:05<12:33,  1.03s/it]Training (53 / 500 Steps) (loss=2.01953):   7%|| 53/782 [01:05<12:32,  1.03s/it]Training (54 / 500 Steps) (loss=2.16211):   7%|| 53/782 [01:06<12:32,  1.03s/it]Training (54 / 500 Steps) (loss=2.16211):   7%|| 54/782 [01:06<12:33,  1.04s/it]Training (55 / 500 Steps) (loss=2.10938):   7%|| 54/782 [01:07<12:33,  1.04s/it]Training (55 / 500 Steps) (loss=2.10938):   7%|| 55/782 [01:07<12:34,  1.04s/it]Training (56 / 500 Steps) (loss=2.21484):   7%|| 55/782 [01:08<12:34,  1.04s/it]Training (56 / 500 Steps) (loss=2.21484):   7%|| 56/782 [01:08<12:31,  1.04s/it]Training (57 / 500 Steps) (loss=2.28516):   7%|| 56/782 [01:09<12:31,  1.04s/it]Training (57 / 500 Steps) (loss=2.28516):   7%|| 57/782 [01:09<12:29,  1.03s/it]Training (58 / 500 Steps) (loss=2.14453):   7%|| 57/782 [01:10<12:29,  1.03s/it]Training (58 / 500 Steps) (loss=2.14453):   7%|| 58/782 [01:10<12:27,  1.03s/it]Training (59 / 500 Steps) (loss=2.16016):   7%|| 58/782 [01:11<12:27,  1.03s/it]Training (59 / 500 Steps) (loss=2.16016):   8%|| 59/782 [01:11<12:25,  1.03s/it]Training (60 / 500 Steps) (loss=2.16016):   8%|| 59/782 [01:12<12:25,  1.03s/it]Training (60 / 500 Steps) (loss=2.16016):   8%|| 60/782 [01:12<12:25,  1.03s/it]Training (61 / 500 Steps) (loss=2.04492):   8%|| 60/782 [01:13<12:25,  1.03s/it]Training (61 / 500 Steps) (loss=2.04492):   8%|| 61/782 [01:13<12:23,  1.03s/it]Training (62 / 500 Steps) (loss=2.40625):   8%|| 61/782 [01:14<12:23,  1.03s/it]Training (62 / 500 Steps) (loss=2.40625):   8%|| 62/782 [01:14<12:21,  1.03s/it]Training (63 / 500 Steps) (loss=1.99512):   8%|| 62/782 [01:15<12:21,  1.03s/it]Training (63 / 500 Steps) (loss=1.99512):   8%|| 63/782 [01:15<12:20,  1.03s/it]Training (64 / 500 Steps) (loss=2.21094):   8%|| 63/782 [01:16<12:20,  1.03s/it]Training (64 / 500 Steps) (loss=2.21094):   8%|| 64/782 [01:16<12:19,  1.03s/it]Training (65 / 500 Steps) (loss=2.18359):   8%|| 64/782 [01:17<12:19,  1.03s/it]Training (65 / 500 Steps) (loss=2.18359):   8%|| 65/782 [01:17<12:17,  1.03s/it]Training (66 / 500 Steps) (loss=1.98242):   8%|| 65/782 [01:18<12:17,  1.03s/it]Training (66 / 500 Steps) (loss=1.98242):   8%|| 66/782 [01:18<12:15,  1.03s/it]Training (67 / 500 Steps) (loss=2.04688):   8%|| 66/782 [01:19<12:15,  1.03s/it]Training (67 / 500 Steps) (loss=2.04688):   9%|| 67/782 [01:19<12:15,  1.03s/it]Training (68 / 500 Steps) (loss=2.13281):   9%|| 67/782 [01:20<12:15,  1.03s/it]Training (68 / 500 Steps) (loss=2.13281):   9%|| 68/782 [01:20<12:14,  1.03s/it]Training (69 / 500 Steps) (loss=2.12695):   9%|| 68/782 [01:21<12:14,  1.03s/it]Training (69 / 500 Steps) (loss=2.12695):   9%|| 69/782 [01:21<12:15,  1.03s/it]Training (70 / 500 Steps) (loss=2.02344):   9%|| 69/782 [01:22<12:15,  1.03s/it]Training (70 / 500 Steps) (loss=2.02344):   9%|| 70/782 [01:22<12:14,  1.03s/it]Training (71 / 500 Steps) (loss=2.28320):   9%|| 70/782 [01:23<12:14,  1.03s/it]Training (71 / 500 Steps) (loss=2.28320):   9%|| 71/782 [01:23<12:13,  1.03s/it]Training (72 / 500 Steps) (loss=2.21289):   9%|| 71/782 [01:24<12:13,  1.03s/it]Training (72 / 500 Steps) (loss=2.21289):   9%|| 72/782 [01:24<12:11,  1.03s/it]Training (73 / 500 Steps) (loss=2.18945):   9%|| 72/782 [01:25<12:11,  1.03s/it]Training (73 / 500 Steps) (loss=2.18945):   9%|| 73/782 [01:25<12:11,  1.03s/it]Training (74 / 500 Steps) (loss=2.05664):   9%|| 73/782 [01:26<12:11,  1.03s/it]Training (74 / 500 Steps) (loss=2.05664):   9%|| 74/782 [01:26<12:10,  1.03s/it]Training (75 / 500 Steps) (loss=1.99805):   9%|| 74/782 [01:27<12:10,  1.03s/it]Training (75 / 500 Steps) (loss=1.99805):  10%|| 75/782 [01:27<12:09,  1.03s/it]Training (76 / 500 Steps) (loss=2.12891):  10%|| 75/782 [01:28<12:09,  1.03s/it]Training (76 / 500 Steps) (loss=2.12891):  10%|| 76/782 [01:28<12:07,  1.03s/it]Training (77 / 500 Steps) (loss=1.96875):  10%|| 76/782 [01:29<12:07,  1.03s/it]Training (77 / 500 Steps) (loss=1.96875):  10%|| 77/782 [01:29<12:05,  1.03s/it]Training (78 / 500 Steps) (loss=2.28906):  10%|| 77/782 [01:30<12:05,  1.03s/it]Training (78 / 500 Steps) (loss=2.28906):  10%|| 78/782 [01:30<12:05,  1.03s/it]Training (79 / 500 Steps) (loss=2.09570):  10%|| 78/782 [01:31<12:05,  1.03s/it]Training (79 / 500 Steps) (loss=2.09570):  10%|| 79/782 [01:31<12:04,  1.03s/it]Training (80 / 500 Steps) (loss=2.09375):  10%|| 79/782 [01:32<12:04,  1.03s/it]Training (80 / 500 Steps) (loss=2.09375):  10%|| 80/782 [01:32<12:02,  1.03s/it]Training (81 / 500 Steps) (loss=2.21289):  10%|| 80/782 [01:33<12:02,  1.03s/it]Training (81 / 500 Steps) (loss=2.21289):  10%|| 81/782 [01:33<12:01,  1.03s/it]Training (82 / 500 Steps) (loss=2.18555):  10%|| 81/782 [01:34<12:01,  1.03s/it]Training (82 / 500 Steps) (loss=2.18555):  10%|| 82/782 [01:34<12:00,  1.03s/it]Training (83 / 500 Steps) (loss=2.01953):  10%|| 82/782 [01:35<12:00,  1.03s/it]Training (83 / 500 Steps) (loss=2.01953):  11%|| 83/782 [01:35<11:59,  1.03s/it]Training (84 / 500 Steps) (loss=1.99609):  11%|| 83/782 [01:37<11:59,  1.03s/it]Training (84 / 500 Steps) (loss=1.99609):  11%|| 84/782 [01:37<11:59,  1.03s/it]Training (85 / 500 Steps) (loss=2.28906):  11%|| 84/782 [01:38<11:59,  1.03s/it]Training (85 / 500 Steps) (loss=2.28906):  11%|| 85/782 [01:38<11:58,  1.03s/it]Training (86 / 500 Steps) (loss=2.12305):  11%|| 85/782 [01:39<11:58,  1.03s/it]Training (86 / 500 Steps) (loss=2.12305):  11%|| 86/782 [01:39<11:57,  1.03s/it]Training (87 / 500 Steps) (loss=2.14453):  11%|| 86/782 [01:40<11:57,  1.03s/it]Training (87 / 500 Steps) (loss=2.14453):  11%|| 87/782 [01:40<11:56,  1.03s/it]Training (88 / 500 Steps) (loss=2.02539):  11%|| 87/782 [01:41<11:56,  1.03s/it]Training (88 / 500 Steps) (loss=2.02539):  11%|| 88/782 [01:41<11:55,  1.03s/it]Training (89 / 500 Steps) (loss=2.15430):  11%|| 88/782 [01:42<11:55,  1.03s/it]Training (89 / 500 Steps) (loss=2.15430):  11%|| 89/782 [01:42<11:54,  1.03s/it]Training (90 / 500 Steps) (loss=2.17773):  11%|| 89/782 [01:43<11:54,  1.03s/it]Training (90 / 500 Steps) (loss=2.17773):  12%|| 90/782 [01:43<11:52,  1.03s/it]Training (91 / 500 Steps) (loss=2.16016):  12%|| 90/782 [01:44<11:52,  1.03s/it]Training (91 / 500 Steps) (loss=2.16016):  12%|| 91/782 [01:44<11:50,  1.03s/it]Training (92 / 500 Steps) (loss=2.01758):  12%|| 91/782 [01:45<11:50,  1.03s/it]Training (92 / 500 Steps) (loss=2.01758):  12%|| 92/782 [01:45<11:49,  1.03s/it]Training (93 / 500 Steps) (loss=2.13672):  12%|| 92/782 [01:46<11:49,  1.03s/it]Training (93 / 500 Steps) (loss=2.13672):  12%|| 93/782 [01:46<11:48,  1.03s/it]Training (94 / 500 Steps) (loss=2.02148):  12%|| 93/782 [01:47<11:48,  1.03s/it]Training (94 / 500 Steps) (loss=2.02148):  12%|| 94/782 [01:47<11:47,  1.03s/it]Training (95 / 500 Steps) (loss=1.98730):  12%|| 94/782 [01:48<11:47,  1.03s/it]Training (95 / 500 Steps) (loss=1.98730):  12%|| 95/782 [01:48<11:45,  1.03s/it]Training (96 / 500 Steps) (loss=2.19141):  12%|| 95/782 [01:49<11:45,  1.03s/it]Training (96 / 500 Steps) (loss=2.19141):  12%|| 96/782 [01:49<11:44,  1.03s/it]Training (97 / 500 Steps) (loss=2.04297):  12%|| 96/782 [01:50<11:44,  1.03s/it]Training (97 / 500 Steps) (loss=2.04297):  12%|| 97/782 [01:50<11:43,  1.03s/it]Training (98 / 500 Steps) (loss=2.02930):  12%|| 97/782 [01:51<11:43,  1.03s/it]Training (98 / 500 Steps) (loss=2.02930):  13%|| 98/782 [01:51<11:43,  1.03s/it]Training (99 / 500 Steps) (loss=2.12305):  13%|| 98/782 [01:52<11:43,  1.03s/it]Training (99 / 500 Steps) (loss=2.12305):  13%|| 99/782 [01:52<11:41,  1.03s/it]Training (100 / 500 Steps) (loss=1.91016):  13%|| 99/782 [01:53<11:41,  1.03s/it]09/24/2022 06:49:12 - INFO - __main__ - ***** Running Validation *****
09/24/2022 06:49:12 - INFO - __main__ -   Num steps = 157
09/24/2022 06:49:12 - INFO - __main__ -   Batch size = 64

Validating... (loss=X.X):   0%|| 0/157 [00:00<?, ?it/s][A
Validating... (loss=1.93450):   0%|| 0/157 [00:01<?, ?it/s][A
Validating... (loss=1.93450):   1%|| 1/157 [00:01<02:51,  1.10s/it][A
Validating... (loss=1.86974):   1%|| 1/157 [00:01<02:51,  1.10s/it][A
Validating... (loss=1.86974):   1%|| 2/157 [00:01<01:43,  1.49it/s][A
Validating... (loss=2.15922):   1%|| 2/157 [00:01<01:43,  1.49it/s][A
Validating... (loss=2.15922):   2%|| 3/157 [00:01<01:20,  1.91it/s][A
Validating... (loss=1.99893):   2%|| 3/157 [00:02<01:20,  1.91it/s][A
Validating... (loss=1.99893):   3%|| 4/157 [00:02<01:09,  2.20it/s][A
Validating... (loss=1.82628):   3%|| 4/157 [00:02<01:09,  2.20it/s][A
Validating... (loss=1.82628):   3%|| 5/157 [00:02<01:03,  2.40it/s][A
Validating... (loss=2.04788):   3%|| 5/157 [00:02<01:03,  2.40it/s][A
Validating... (loss=2.04788):   4%|| 6/157 [00:02<00:59,  2.53it/s][A
Validating... (loss=1.99591):   4%|| 6/157 [00:03<00:59,  2.53it/s][A
Validating... (loss=1.99591):   4%|| 7/157 [00:03<00:57,  2.63it/s][A
Validating... (loss=1.97607):   4%|| 7/157 [00:03<00:57,  2.63it/s][A
Validating... (loss=1.97607):   5%|| 8/157 [00:03<00:55,  2.69it/s][A
Validating... (loss=2.05550):   5%|| 8/157 [00:03<00:55,  2.69it/s][A
Validating... (loss=2.05550):   6%|| 9/157 [00:03<00:53,  2.74it/s][A
Validating... (loss=1.95495):   6%|| 9/157 [00:04<00:53,  2.74it/s][A
Validating... (loss=1.95495):   6%|| 10/157 [00:04<00:53,  2.77it/s][A
Validating... (loss=2.07310):   6%|| 10/157 [00:04<00:53,  2.77it/s][A
Validating... (loss=2.07310):   7%|| 11/157 [00:04<00:52,  2.80it/s][A
Validating... (loss=2.00105):   7%|| 11/157 [00:04<00:52,  2.80it/s][A
Validating... (loss=2.00105):   8%|| 12/157 [00:04<00:52,  2.78it/s][A
Validating... (loss=2.10451):   8%|| 12/157 [00:05<00:52,  2.78it/s][A
Validating... (loss=2.10451):   8%|| 13/157 [00:05<00:51,  2.81it/s][A
Validating... (loss=1.77633):   8%|| 13/157 [00:05<00:51,  2.81it/s][A
Validating... (loss=1.77633):   9%|| 14/157 [00:05<00:50,  2.84it/s][A
Validating... (loss=1.95610):   9%|| 14/157 [00:06<00:50,  2.84it/s][A
Validating... (loss=1.95610):  10%|| 15/157 [00:06<00:49,  2.86it/s][A
Validating... (loss=1.87941):  10%|| 15/157 [00:06<00:49,  2.86it/s][A
Validating... (loss=1.87941):  10%|| 16/157 [00:06<00:48,  2.88it/s][A
Validating... (loss=2.05061):  10%|| 16/157 [00:06<00:48,  2.88it/s][A
Validating... (loss=2.05061):  11%|| 17/157 [00:06<00:48,  2.89it/s][A
Validating... (loss=1.94232):  11%|| 17/157 [00:07<00:48,  2.89it/s][A
Validating... (loss=1.94232):  11%|| 18/157 [00:07<00:47,  2.90it/s][A
Validating... (loss=1.88098):  11%|| 18/157 [00:07<00:47,  2.90it/s][A
Validating... (loss=1.88098):  12%|| 19/157 [00:07<00:47,  2.90it/s][A
Validating... (loss=2.12009):  12%|| 19/157 [00:07<00:47,  2.90it/s][A
Validating... (loss=2.12009):  13%|| 20/157 [00:07<00:47,  2.91it/s][A
Validating... (loss=2.09949):  13%|| 20/157 [00:08<00:47,  2.91it/s][A
Validating... (loss=2.09949):  13%|| 21/157 [00:08<00:46,  2.91it/s][A
Validating... (loss=1.94571):  13%|| 21/157 [00:08<00:46,  2.91it/s][A
Validating... (loss=1.94571):  14%|| 22/157 [00:08<00:46,  2.91it/s][A
Validating... (loss=1.79775):  14%|| 22/157 [00:08<00:46,  2.91it/s][A
Validating... (loss=1.79775):  15%|| 23/157 [00:08<00:45,  2.91it/s][A
Validating... (loss=1.84155):  15%|| 23/157 [00:09<00:45,  2.91it/s][A
Validating... (loss=1.84155):  15%|| 24/157 [00:09<00:45,  2.91it/s][A
Validating... (loss=2.09394):  15%|| 24/157 [00:09<00:45,  2.91it/s][A
Validating... (loss=2.09394):  16%|| 25/157 [00:09<00:45,  2.91it/s][A
Validating... (loss=2.03308):  16%|| 25/157 [00:09<00:45,  2.91it/s][A
Validating... (loss=2.03308):  17%|| 26/157 [00:09<00:45,  2.90it/s][A
Validating... (loss=1.92410):  17%|| 26/157 [00:10<00:45,  2.90it/s][A
Validating... (loss=1.92410):  17%|| 27/157 [00:10<00:44,  2.90it/s][A
Validating... (loss=1.93113):  17%|| 27/157 [00:10<00:44,  2.90it/s][A
Validating... (loss=1.93113):  18%|| 28/157 [00:10<00:44,  2.91it/s][A
Validating... (loss=2.00888):  18%|| 28/157 [00:10<00:44,  2.91it/s][A
Validating... (loss=2.00888):  18%|| 29/157 [00:10<00:43,  2.91it/s][A
Validating... (loss=2.04134):  18%|| 29/157 [00:11<00:43,  2.91it/s][A
Validating... (loss=2.04134):  19%|| 30/157 [00:11<00:43,  2.91it/s][A
Validating... (loss=2.00427):  19%|| 30/157 [00:11<00:43,  2.91it/s][A
Validating... (loss=2.00427):  20%|| 31/157 [00:11<00:43,  2.91it/s][A
Validating... (loss=2.10803):  20%|| 31/157 [00:11<00:43,  2.91it/s][A
Validating... (loss=2.10803):  20%|| 32/157 [00:11<00:42,  2.91it/s][A
Validating... (loss=2.07657):  20%|| 32/157 [00:12<00:42,  2.91it/s][A
Validating... (loss=2.07657):  21%|| 33/157 [00:12<00:42,  2.91it/s][A
Validating... (loss=1.98685):  21%|| 33/157 [00:12<00:42,  2.91it/s][A
Validating... (loss=1.98685):  22%|| 34/157 [00:12<00:42,  2.91it/s][A
Validating... (loss=1.88967):  22%|| 34/157 [00:12<00:42,  2.91it/s][A
Validating... (loss=1.88967):  22%|| 35/157 [00:12<00:41,  2.92it/s][A
Validating... (loss=1.96967):  22%|| 35/157 [00:13<00:41,  2.92it/s][A
Validating... (loss=1.96967):  23%|| 36/157 [00:13<00:41,  2.92it/s][A
Validating... (loss=1.97682):  23%|| 36/157 [00:13<00:41,  2.92it/s][A
Validating... (loss=1.97682):  24%|| 37/157 [00:13<00:41,  2.91it/s][A
Validating... (loss=2.06325):  24%|| 37/157 [00:13<00:41,  2.91it/s][A
Validating... (loss=2.06325):  24%|| 38/157 [00:13<00:40,  2.92it/s][A
Validating... (loss=1.85065):  24%|| 38/157 [00:14<00:40,  2.92it/s][A
Validating... (loss=1.85065):  25%|| 39/157 [00:14<00:40,  2.92it/s][A
Validating... (loss=2.02656):  25%|| 39/157 [00:14<00:40,  2.92it/s][A
Validating... (loss=2.02656):  25%|| 40/157 [00:14<00:40,  2.92it/s][A
Validating... (loss=1.97336):  25%|| 40/157 [00:14<00:40,  2.92it/s][A
Validating... (loss=1.97336):  26%|| 41/157 [00:14<00:39,  2.92it/s][A
Validating... (loss=1.86759):  26%|| 41/157 [00:15<00:39,  2.92it/s][A
Validating... (loss=1.86759):  27%|| 42/157 [00:15<00:39,  2.92it/s][A
Validating... (loss=1.98977):  27%|| 42/157 [00:15<00:39,  2.92it/s][A
Validating... (loss=1.98977):  27%|| 43/157 [00:15<00:39,  2.92it/s][A
Validating... (loss=1.93867):  27%|| 43/157 [00:15<00:39,  2.92it/s][A
Validating... (loss=1.93867):  28%|| 44/157 [00:15<00:38,  2.92it/s][A
Validating... (loss=2.17141):  28%|| 44/157 [00:16<00:38,  2.92it/s][A
Validating... (loss=2.17141):  29%|| 45/157 [00:16<00:38,  2.92it/s][A
Validating... (loss=1.92963):  29%|| 45/157 [00:16<00:38,  2.92it/s][A
Validating... (loss=1.92963):  29%|| 46/157 [00:16<00:38,  2.92it/s][A
Validating... (loss=2.03837):  29%|| 46/157 [00:17<00:38,  2.92it/s][A
Validating... (loss=2.03837):  30%|| 47/157 [00:17<00:37,  2.92it/s][A
Validating... (loss=1.91973):  30%|| 47/157 [00:17<00:37,  2.92it/s][A
Validating... (loss=1.91973):  31%|| 48/157 [00:17<00:37,  2.92it/s][A
Validating... (loss=2.07613):  31%|| 48/157 [00:17<00:37,  2.92it/s][A
Validating... (loss=2.07613):  31%|| 49/157 [00:17<00:37,  2.92it/s][A
Validating... (loss=1.93917):  31%|| 49/157 [00:18<00:37,  2.92it/s][A
Validating... (loss=1.93917):  32%|| 50/157 [00:18<00:36,  2.92it/s][A
Validating... (loss=2.15898):  32%|| 50/157 [00:18<00:36,  2.92it/s][A
Validating... (loss=2.15898):  32%|| 51/157 [00:18<00:36,  2.92it/s][A
Validating... (loss=2.10761):  32%|| 51/157 [00:18<00:36,  2.92it/s][A
Validating... (loss=2.10761):  33%|| 52/157 [00:18<00:36,  2.92it/s][A
Validating... (loss=1.87230):  33%|| 52/157 [00:19<00:36,  2.92it/s][A
Validating... (loss=1.87230):  34%|| 53/157 [00:19<00:35,  2.92it/s][A
Validating... (loss=2.03031):  34%|| 53/157 [00:19<00:35,  2.92it/s][A
Validating... (loss=2.03031):  34%|| 54/157 [00:19<00:35,  2.92it/s][A
Validating... (loss=1.96818):  34%|| 54/157 [00:19<00:35,  2.92it/s][A
Validating... (loss=1.96818):  35%|| 55/157 [00:19<00:34,  2.92it/s][A
Validating... (loss=1.95737):  35%|| 55/157 [00:20<00:34,  2.92it/s][A
Validating... (loss=1.95737):  36%|| 56/157 [00:20<00:34,  2.91it/s][A
Validating... (loss=2.01450):  36%|| 56/157 [00:20<00:34,  2.91it/s][A
Validating... (loss=2.01450):  36%|| 57/157 [00:20<00:34,  2.91it/s][A
Validating... (loss=1.91655):  36%|| 57/157 [00:20<00:34,  2.91it/s][A
Validating... (loss=1.91655):  37%|| 58/157 [00:20<00:33,  2.91it/s][A
Validating... (loss=2.00838):  37%|| 58/157 [00:21<00:33,  2.91it/s][A
Validating... (loss=2.00838):  38%|| 59/157 [00:21<00:33,  2.91it/s][A
Validating... (loss=2.05994):  38%|| 59/157 [00:21<00:33,  2.91it/s][A
Validating... (loss=2.05994):  38%|| 60/157 [00:21<00:33,  2.91it/s][A
Validating... (loss=1.90979):  38%|| 60/157 [00:21<00:33,  2.91it/s][A
Validating... (loss=1.90979):  39%|| 61/157 [00:21<00:32,  2.91it/s][A
Validating... (loss=2.04449):  39%|| 61/157 [00:22<00:32,  2.91it/s][A
Validating... (loss=2.04449):  39%|| 62/157 [00:22<00:32,  2.91it/s][A
Validating... (loss=1.94648):  39%|| 62/157 [00:22<00:32,  2.91it/s][A
Validating... (loss=1.94648):  40%|| 63/157 [00:22<00:32,  2.91it/s][A
Validating... (loss=2.11441):  40%|| 63/157 [00:22<00:32,  2.91it/s][A
Validating... (loss=2.11441):  41%|| 64/157 [00:22<00:31,  2.91it/s][A
Validating... (loss=2.07024):  41%|| 64/157 [00:23<00:31,  2.91it/s][A
Validating... (loss=2.07024):  41%|| 65/157 [00:23<00:31,  2.92it/s][A
Validating... (loss=1.82351):  41%|| 65/157 [00:23<00:31,  2.92it/s][A
Validating... (loss=1.82351):  42%|| 66/157 [00:23<00:31,  2.92it/s][A
Validating... (loss=2.08369):  42%|| 66/157 [00:23<00:31,  2.92it/s][A
Validating... (loss=2.08369):  43%|| 67/157 [00:23<00:30,  2.91it/s][A
Validating... (loss=1.98795):  43%|| 67/157 [00:24<00:30,  2.91it/s][A
Validating... (loss=1.98795):  43%|| 68/157 [00:24<00:30,  2.91it/s][A
Validating... (loss=1.87511):  43%|| 68/157 [00:24<00:30,  2.91it/s][A
Validating... (loss=1.87511):  44%|| 69/157 [00:24<00:30,  2.91it/s][A
Validating... (loss=1.90053):  44%|| 69/157 [00:24<00:30,  2.91it/s][A
Validating... (loss=1.90053):  45%|| 70/157 [00:24<00:29,  2.91it/s][A
Validating... (loss=1.89339):  45%|| 70/157 [00:25<00:29,  2.91it/s][A
Validating... (loss=1.89339):  45%|| 71/157 [00:25<00:29,  2.91it/s][A
Validating... (loss=2.01677):  45%|| 71/157 [00:25<00:29,  2.91it/s][A
Validating... (loss=2.01677):  46%|| 72/157 [00:25<00:29,  2.91it/s][A
Validating... (loss=2.01154):  46%|| 72/157 [00:25<00:29,  2.91it/s][A
Validating... (loss=2.01154):  46%|| 73/157 [00:25<00:28,  2.91it/s][A
Validating... (loss=2.00458):  46%|| 73/157 [00:26<00:28,  2.91it/s][A
Validating... (loss=2.00458):  47%|| 74/157 [00:26<00:28,  2.91it/s][A
Validating... (loss=2.15022):  47%|| 74/157 [00:26<00:28,  2.91it/s][A
Validating... (loss=2.15022):  48%|| 75/157 [00:26<00:28,  2.91it/s][A
Validating... (loss=1.93312):  48%|| 75/157 [00:26<00:28,  2.91it/s][A
Validating... (loss=1.93312):  48%|| 76/157 [00:26<00:27,  2.92it/s][A
Validating... (loss=1.92806):  48%|| 76/157 [00:27<00:27,  2.92it/s][A
Validating... (loss=1.92806):  49%|| 77/157 [00:27<00:27,  2.91it/s][A
Validating... (loss=1.88233):  49%|| 77/157 [00:27<00:27,  2.91it/s][A
Validating... (loss=1.88233):  50%|| 78/157 [00:27<00:27,  2.92it/s][A
Validating... (loss=1.92284):  50%|| 78/157 [00:27<00:27,  2.92it/s][A
Validating... (loss=1.92284):  50%|| 79/157 [00:27<00:26,  2.92it/s][A
Validating... (loss=2.00689):  50%|| 79/157 [00:28<00:26,  2.92it/s][A
Validating... (loss=2.00689):  51%|| 80/157 [00:28<00:26,  2.92it/s][A
Validating... (loss=1.96583):  51%|| 80/157 [00:28<00:26,  2.92it/s][A
Validating... (loss=1.96583):  52%|| 81/157 [00:28<00:26,  2.92it/s][A
Validating... (loss=2.08555):  52%|| 81/157 [00:29<00:26,  2.92it/s][A
Validating... (loss=2.08555):  52%|| 82/157 [00:29<00:25,  2.92it/s][A
Validating... (loss=1.87380):  52%|| 82/157 [00:29<00:25,  2.92it/s][A
Validating... (loss=1.87380):  53%|| 83/157 [00:29<00:25,  2.92it/s][A
Validating... (loss=1.98425):  53%|| 83/157 [00:29<00:25,  2.92it/s][A
Validating... (loss=1.98425):  54%|| 84/157 [00:29<00:25,  2.91it/s][A
Validating... (loss=2.06369):  54%|| 84/157 [00:30<00:25,  2.91it/s][A
Validating... (loss=2.06369):  54%|| 85/157 [00:30<00:24,  2.91it/s][A
Validating... (loss=2.00572):  54%|| 85/157 [00:30<00:24,  2.91it/s][A
Validating... (loss=2.00572):  55%|| 86/157 [00:30<00:24,  2.91it/s][A
Validating... (loss=2.18250):  55%|| 86/157 [00:30<00:24,  2.91it/s][A
Validating... (loss=2.18250):  55%|| 87/157 [00:30<00:24,  2.91it/s][A
Validating... (loss=2.19323):  55%|| 87/157 [00:31<00:24,  2.91it/s][A
Validating... (loss=2.19323):  56%|| 88/157 [00:31<00:23,  2.91it/s][A
Validating... (loss=2.17960):  56%|| 88/157 [00:31<00:23,  2.91it/s][A
Validating... (loss=2.17960):  57%|| 89/157 [00:31<00:23,  2.91it/s][A
Validating... (loss=1.88098):  57%|| 89/157 [00:31<00:23,  2.91it/s][A
Validating... (loss=1.88098):  57%|| 90/157 [00:31<00:23,  2.91it/s][A
Validating... (loss=1.92548):  57%|| 90/157 [00:32<00:23,  2.91it/s][A
Validating... (loss=1.92548):  58%|| 91/157 [00:32<00:22,  2.91it/s][A
Validating... (loss=2.07304):  58%|| 91/157 [00:32<00:22,  2.91it/s][A
Validating... (loss=2.07304):  59%|| 92/157 [00:32<00:22,  2.91it/s][A
Validating... (loss=1.99540):  59%|| 92/157 [00:32<00:22,  2.91it/s][A
Validating... (loss=1.99540):  59%|| 93/157 [00:32<00:21,  2.91it/s][A
Validating... (loss=2.09125):  59%|| 93/157 [00:33<00:21,  2.91it/s][A
Validating... (loss=2.09125):  60%|| 94/157 [00:33<00:21,  2.91it/s][A
Validating... (loss=2.12129):  60%|| 94/157 [00:33<00:21,  2.91it/s][A
Validating... (loss=2.12129):  61%|| 95/157 [00:33<00:21,  2.91it/s][A
Validating... (loss=2.09072):  61%|| 95/157 [00:33<00:21,  2.91it/s][A
Validating... (loss=2.09072):  61%|| 96/157 [00:33<00:20,  2.91it/s][A
Validating... (loss=2.03282):  61%|| 96/157 [00:34<00:20,  2.91it/s][A
Validating... (loss=2.03282):  62%|| 97/157 [00:34<00:20,  2.91it/s][A
Validating... (loss=2.12789):  62%|| 97/157 [00:34<00:20,  2.91it/s][A
Validating... (loss=2.12789):  62%|| 98/157 [00:34<00:20,  2.91it/s][A
Validating... (loss=1.85250):  62%|| 98/157 [00:34<00:20,  2.91it/s][A
Validating... (loss=1.85250):  63%|| 99/157 [00:34<00:19,  2.91it/s][A
Validating... (loss=1.91514):  63%|| 99/157 [00:35<00:19,  2.91it/s][A
Validating... (loss=1.91514):  64%|| 100/157 [00:35<00:19,  2.91it/s][A
Validating... (loss=2.00323):  64%|| 100/157 [00:35<00:19,  2.91it/s][A
Validating... (loss=2.00323):  64%|| 101/157 [00:35<00:19,  2.91it/s][A
Validating... (loss=1.90388):  64%|| 101/157 [00:35<00:19,  2.91it/s][A
Validating... (loss=1.90388):  65%|| 102/157 [00:35<00:18,  2.92it/s][A
Validating... (loss=2.21436):  65%|| 102/157 [00:36<00:18,  2.92it/s][A
Validating... (loss=2.21436):  66%|| 103/157 [00:36<00:18,  2.92it/s][A
Validating... (loss=2.02164):  66%|| 103/157 [00:36<00:18,  2.92it/s][A
Validating... (loss=2.02164):  66%|| 104/157 [00:36<00:18,  2.91it/s][A
Validating... (loss=2.04499):  66%|| 104/157 [00:36<00:18,  2.91it/s][A
Validating... (loss=2.04499):  67%|| 105/157 [00:36<00:17,  2.91it/s][A
Validating... (loss=1.94764):  67%|| 105/157 [00:37<00:17,  2.91it/s][A
Validating... (loss=1.94764):  68%|| 106/157 [00:37<00:17,  2.91it/s][A
Validating... (loss=1.86433):  68%|| 106/157 [00:37<00:17,  2.91it/s][A
Validating... (loss=1.86433):  68%|| 107/157 [00:37<00:17,  2.91it/s][A
Validating... (loss=2.00459):  68%|| 107/157 [00:37<00:17,  2.91it/s][A
Validating... (loss=2.00459):  69%|| 108/157 [00:37<00:16,  2.91it/s][A
Validating... (loss=2.10374):  69%|| 108/157 [00:38<00:16,  2.91it/s][A
Validating... (loss=2.10374):  69%|| 109/157 [00:38<00:16,  2.91it/s][A
Validating... (loss=1.93666):  69%|| 109/157 [00:38<00:16,  2.91it/s][A
Validating... (loss=1.93666):  70%|| 110/157 [00:38<00:16,  2.91it/s][A
Validating... (loss=2.03314):  70%|| 110/157 [00:38<00:16,  2.91it/s][A
Validating... (loss=2.03314):  71%|| 111/157 [00:38<00:15,  2.91it/s][A
Validating... (loss=2.06333):  71%|| 111/157 [00:39<00:15,  2.91it/s][A
Validating... (loss=2.06333):  71%|| 112/157 [00:39<00:15,  2.91it/s][A
Validating... (loss=1.96297):  71%|| 112/157 [00:39<00:15,  2.91it/s][A
Validating... (loss=1.96297):  72%|| 113/157 [00:39<00:15,  2.91it/s][A
Validating... (loss=1.87670):  72%|| 113/157 [00:40<00:15,  2.91it/s][A
Validating... (loss=1.87670):  73%|| 114/157 [00:40<00:14,  2.91it/s][A
Validating... (loss=1.89514):  73%|| 114/157 [00:40<00:14,  2.91it/s][A
Validating... (loss=1.89514):  73%|| 115/157 [00:40<00:14,  2.90it/s][A
Validating... (loss=2.04231):  73%|| 115/157 [00:40<00:14,  2.90it/s][A
Validating... (loss=2.04231):  74%|| 116/157 [00:40<00:14,  2.88it/s][A
Validating... (loss=1.94683):  74%|| 116/157 [00:41<00:14,  2.88it/s][A
Validating... (loss=1.94683):  75%|| 117/157 [00:41<00:13,  2.89it/s][A
Validating... (loss=1.99869):  75%|| 117/157 [00:41<00:13,  2.89it/s][A
Validating... (loss=1.99869):  75%|| 118/157 [00:41<00:13,  2.90it/s][A
Validating... (loss=1.83164):  75%|| 118/157 [00:41<00:13,  2.90it/s][A
Validating... (loss=1.83164):  76%|| 119/157 [00:41<00:13,  2.91it/s][A
Validating... (loss=2.01482):  76%|| 119/157 [00:42<00:13,  2.91it/s][A
Validating... (loss=2.01482):  76%|| 120/157 [00:42<00:12,  2.91it/s][A
Validating... (loss=1.88939):  76%|| 120/157 [00:42<00:12,  2.91it/s][A
Validating... (loss=1.88939):  77%|| 121/157 [00:42<00:12,  2.91it/s][A
Validating... (loss=2.05759):  77%|| 121/157 [00:42<00:12,  2.91it/s][A
Validating... (loss=2.05759):  78%|| 122/157 [00:42<00:12,  2.91it/s][A
Validating... (loss=2.00798):  78%|| 122/157 [00:43<00:12,  2.91it/s][A
Validating... (loss=2.00798):  78%|| 123/157 [00:43<00:11,  2.91it/s][A
Validating... (loss=1.87856):  78%|| 123/157 [00:43<00:11,  2.91it/s][A
Validating... (loss=1.87856):  79%|| 124/157 [00:43<00:11,  2.91it/s][A
Validating... (loss=2.17103):  79%|| 124/157 [00:43<00:11,  2.91it/s][A
Validating... (loss=2.17103):  80%|| 125/157 [00:43<00:10,  2.91it/s][A
Validating... (loss=1.80776):  80%|| 125/157 [00:44<00:10,  2.91it/s][A
Validating... (loss=1.80776):  80%|| 126/157 [00:44<00:10,  2.91it/s][A
Validating... (loss=2.01194):  80%|| 126/157 [00:44<00:10,  2.91it/s][A
Validating... (loss=2.01194):  81%|| 127/157 [00:44<00:10,  2.91it/s][A
Validating... (loss=1.96408):  81%|| 127/157 [00:44<00:10,  2.91it/s][A
Validating... (loss=1.96408):  82%|| 128/157 [00:44<00:09,  2.91it/s][A
Validating... (loss=1.98382):  82%|| 128/157 [00:45<00:09,  2.91it/s][A
Validating... (loss=1.98382):  82%|| 129/157 [00:45<00:09,  2.91it/s][A
Validating... (loss=2.20036):  82%|| 129/157 [00:45<00:09,  2.91it/s][A
Validating... (loss=2.20036):  83%|| 130/157 [00:45<00:09,  2.90it/s][A
Validating... (loss=1.94194):  83%|| 130/157 [00:45<00:09,  2.90it/s][A
Validating... (loss=1.94194):  83%|| 131/157 [00:45<00:08,  2.90it/s][A
Validating... (loss=2.04859):  83%|| 131/157 [00:46<00:08,  2.90it/s][A
Validating... (loss=2.04859):  84%|| 132/157 [00:46<00:08,  2.90it/s][A
Validating... (loss=1.97163):  84%|| 132/157 [00:46<00:08,  2.90it/s][A
Validating... (loss=1.97163):  85%|| 133/157 [00:46<00:08,  2.90it/s][A
Validating... (loss=2.08335):  85%|| 133/157 [00:46<00:08,  2.90it/s][A
Validating... (loss=2.08335):  85%|| 134/157 [00:46<00:07,  2.90it/s][A
Validating... (loss=1.95674):  85%|| 134/157 [00:47<00:07,  2.90it/s][A
Validating... (loss=1.95674):  86%|| 135/157 [00:47<00:07,  2.91it/s][A
Validating... (loss=2.02196):  86%|| 135/157 [00:47<00:07,  2.91it/s][A
Validating... (loss=2.02196):  87%|| 136/157 [00:47<00:07,  2.91it/s][A
Validating... (loss=2.03459):  87%|| 136/157 [00:47<00:07,  2.91it/s][A
Validating... (loss=2.03459):  87%|| 137/157 [00:47<00:06,  2.91it/s][A
Validating... (loss=1.91824):  87%|| 137/157 [00:48<00:06,  2.91it/s][A
Validating... (loss=1.91824):  88%|| 138/157 [00:48<00:06,  2.91it/s][A
Validating... (loss=1.98855):  88%|| 138/157 [00:48<00:06,  2.91it/s][A
Validating... (loss=1.98855):  89%|| 139/157 [00:48<00:06,  2.91it/s][A
Validating... (loss=1.78900):  89%|| 139/157 [00:48<00:06,  2.91it/s][A
Validating... (loss=1.78900):  89%|| 140/157 [00:48<00:05,  2.91it/s][A
Validating... (loss=1.98536):  89%|| 140/157 [00:49<00:05,  2.91it/s][A
Validating... (loss=1.98536):  90%|| 141/157 [00:49<00:05,  2.91it/s][A
Validating... (loss=1.94955):  90%|| 141/157 [00:49<00:05,  2.91it/s][A
Validating... (loss=1.94955):  90%|| 142/157 [00:49<00:05,  2.91it/s][A
Validating... (loss=2.02902):  90%|| 142/157 [00:49<00:05,  2.91it/s][A
Validating... (loss=2.02902):  91%|| 143/157 [00:49<00:04,  2.91it/s][A
Validating... (loss=1.86995):  91%|| 143/157 [00:50<00:04,  2.91it/s][A
Validating... (loss=1.86995):  92%|| 144/157 [00:50<00:04,  2.91it/s][A
Validating... (loss=1.82423):  92%|| 144/157 [00:50<00:04,  2.91it/s][A
Validating... (loss=1.82423):  92%|| 145/157 [00:50<00:04,  2.91it/s][A
Validating... (loss=2.16083):  92%|| 145/157 [00:51<00:04,  2.91it/s][A
Validating... (loss=2.16083):  93%|| 146/157 [00:51<00:03,  2.91it/s][A
Validating... (loss=2.23648):  93%|| 146/157 [00:51<00:03,  2.91it/s][A
Validating... (loss=2.23648):  94%|| 147/157 [00:51<00:03,  2.91it/s][A
Validating... (loss=2.02212):  94%|| 147/157 [00:51<00:03,  2.91it/s][A
Validating... (loss=2.02212):  94%|| 148/157 [00:51<00:03,  2.91it/s][A
Validating... (loss=1.96394):  94%|| 148/157 [00:52<00:03,  2.91it/s][A
Validating... (loss=1.96394):  95%|| 149/157 [00:52<00:02,  2.91it/s][A
Validating... (loss=1.93422):  95%|| 149/157 [00:52<00:02,  2.91it/s][A
Validating... (loss=1.93422):  96%|| 150/157 [00:52<00:02,  2.91it/s][A
Validating... (loss=1.95026):  96%|| 150/157 [00:52<00:02,  2.91it/s][A
Validating... (loss=1.95026):  96%|| 151/157 [00:52<00:02,  2.91it/s][A
Validating... (loss=1.93159):  96%|| 151/157 [00:53<00:02,  2.91it/s][A
Validating... (loss=1.93159):  97%|| 152/157 [00:53<00:01,  2.91it/s][A
Validating... (loss=1.96648):  97%|| 152/157 [00:53<00:01,  2.91it/s][A
Validating... (loss=1.96648):  97%|| 153/157 [00:53<00:01,  2.91it/s][A
Validating... (loss=1.94484):  97%|| 153/157 [00:53<00:01,  2.91it/s][A
Validating... (loss=1.94484):  98%|| 154/157 [00:53<00:01,  2.91it/s][A
Validating... (loss=2.06060):  98%|| 154/157 [00:54<00:01,  2.91it/s][A
Validating... (loss=2.06060):  99%|| 155/157 [00:54<00:00,  2.91it/s][A
Validating... (loss=1.91419):  99%|| 155/157 [00:54<00:00,  2.91it/s][A
Validating... (loss=1.91419):  99%|| 156/157 [00:54<00:00,  2.91it/s][A
Validating... (loss=1.87752):  99%|| 156/157 [00:54<00:00,  2.91it/s][A
Validating... (loss=1.87752): 100%|| 157/157 [00:54<00:00,  3.62it/s][AValidating... (loss=1.87752): 100%|| 157/157 [00:54<00:00,  2.87it/s]
09/24/2022 06:50:07 - INFO - __main__ - 

09/24/2022 06:50:07 - INFO - __main__ - Validation Results
09/24/2022 06:50:07 - INFO - __main__ - Global Steps: 100
09/24/2022 06:50:07 - INFO - __main__ - Valid Loss: 1.98991
09/24/2022 06:50:07 - INFO - __main__ - Valid Accuracy: 0.28690
09/24/2022 06:50:07 - INFO - __main__ - Saved model checkpoint to [DIR: output]
Training (100 / 500 Steps) (loss=1.91016):  13%|| 100/782 [02:48<3:20:48, 17.67s/it]Training (101 / 500 Steps) (loss=1.85840):  13%|| 100/782 [02:49<3:20:48, 17.67s/it]Training (101 / 500 Steps) (loss=1.85840):  13%|| 101/782 [02:49<2:23:57, 12.68s/it]Training (102 / 500 Steps) (loss=2.08789):  13%|| 101/782 [02:51<2:23:57, 12.68s/it]Training (102 / 500 Steps) (loss=2.08789):  13%|| 102/782 [02:51<1:44:07,  9.19s/it]Training (103 / 500 Steps) (loss=2.04492):  13%|| 102/782 [02:52<1:44:07,  9.19s/it]Training (103 / 500 Steps) (loss=2.04492):  13%|| 103/782 [02:52<1:16:15,  6.74s/it]Training (104 / 500 Steps) (loss=2.06836):  13%|| 103/782 [02:53<1:16:15,  6.74s/it]Training (104 / 500 Steps) (loss=2.06836):  13%|| 104/782 [02:53<56:47,  5.03s/it]  Training (105 / 500 Steps) (loss=2.00977):  13%|| 104/782 [02:54<56:47,  5.03s/it]Training (105 / 500 Steps) (loss=2.00977):  13%|| 105/782 [02:54<43:10,  3.83s/it]Training (106 / 500 Steps) (loss=2.26953):  13%|| 105/782 [02:55<43:10,  3.83s/it]Training (106 / 500 Steps) (loss=2.26953):  14%|| 106/782 [02:55<33:40,  2.99s/it]Training (107 / 500 Steps) (loss=2.08984):  14%|| 106/782 [02:56<33:40,  2.99s/it]Training (107 / 500 Steps) (loss=2.08984):  14%|| 107/782 [02:56<27:01,  2.40s/it]Training (108 / 500 Steps) (loss=2.06641):  14%|| 107/782 [02:57<27:01,  2.40s/it]Training (108 / 500 Steps) (loss=2.06641):  14%|| 108/782 [02:57<22:21,  1.99s/it]Training (109 / 500 Steps) (loss=2.01367):  14%|| 108/782 [02:58<22:21,  1.99s/it]Training (109 / 500 Steps) (loss=2.01367):  14%|| 109/782 [02:58<19:05,  1.70s/it]Training (110 / 500 Steps) (loss=2.05273):  14%|| 109/782 [02:59<19:05,  1.70s/it]Training (110 / 500 Steps) (loss=2.05273):  14%|| 110/782 [02:59<16:48,  1.50s/it]Training (111 / 500 Steps) (loss=1.98926):  14%|| 110/782 [03:00<16:48,  1.50s/it]Training (111 / 500 Steps) (loss=1.98926):  14%|| 111/782 [03:00<15:11,  1.36s/it]Training (112 / 500 Steps) (loss=2.01758):  14%|| 111/782 [03:01<15:11,  1.36s/it]Training (112 / 500 Steps) (loss=2.01758):  14%|| 112/782 [03:01<14:04,  1.26s/it]Training (113 / 500 Steps) (loss=1.96094):  14%|| 112/782 [03:02<14:04,  1.26s/it]Training (113 / 500 Steps) (loss=1.96094):  14%|| 113/782 [03:02<13:16,  1.19s/it]Training (114 / 500 Steps) (loss=2.19727):  14%|| 113/782 [03:03<13:16,  1.19s/it]Training (114 / 500 Steps) (loss=2.19727):  15%|| 114/782 [03:03<12:42,  1.14s/it]Training (115 / 500 Steps) (loss=2.08789):  15%|| 114/782 [03:04<12:42,  1.14s/it]Training (115 / 500 Steps) (loss=2.08789):  15%|| 115/782 [03:04<12:19,  1.11s/it]Training (116 / 500 Steps) (loss=2.08008):  15%|| 115/782 [03:05<12:19,  1.11s/it]Training (116 / 500 Steps) (loss=2.08008):  15%|| 116/782 [03:05<12:05,  1.09s/it]Training (117 / 500 Steps) (loss=2.14648):  15%|| 116/782 [03:06<12:05,  1.09s/it]Training (117 / 500 Steps) (loss=2.14648):  15%|| 117/782 [03:06<11:52,  1.07s/it]Training (118 / 500 Steps) (loss=2.00977):  15%|| 117/782 [03:07<11:52,  1.07s/it]Training (118 / 500 Steps) (loss=2.00977):  15%|| 118/782 [03:07<11:42,  1.06s/it]Training (119 / 500 Steps) (loss=1.98047):  15%|| 118/782 [03:08<11:42,  1.06s/it]Training (119 / 500 Steps) (loss=1.98047):  15%|| 119/782 [03:08<11:35,  1.05s/it]Training (120 / 500 Steps) (loss=2.17188):  15%|| 119/782 [03:09<11:35,  1.05s/it]Training (120 / 500 Steps) (loss=2.17188):  15%|| 120/782 [03:09<11:30,  1.04s/it]Training (121 / 500 Steps) (loss=2.23828):  15%|| 120/782 [03:10<11:30,  1.04s/it]Training (121 / 500 Steps) (loss=2.23828):  15%|| 121/782 [03:10<11:27,  1.04s/it]Training (122 / 500 Steps) (loss=1.94336):  15%|| 121/782 [03:11<11:27,  1.04s/it]Training (122 / 500 Steps) (loss=1.94336):  16%|| 122/782 [03:11<11:24,  1.04s/it]Training (123 / 500 Steps) (loss=2.19141):  16%|| 122/782 [03:12<11:24,  1.04s/it]Training (123 / 500 Steps) (loss=2.19141):  16%|| 123/782 [03:12<11:21,  1.03s/it]Training (124 / 500 Steps) (loss=2.00781):  16%|| 123/782 [03:13<11:21,  1.03s/it]Training (124 / 500 Steps) (loss=2.00781):  16%|| 124/782 [03:13<11:19,  1.03s/it]Training (125 / 500 Steps) (loss=1.96777):  16%|| 124/782 [03:14<11:19,  1.03s/it]Training (125 / 500 Steps) (loss=1.96777):  16%|| 125/782 [03:14<11:23,  1.04s/it]Training (126 / 500 Steps) (loss=2.08008):  16%|| 125/782 [03:15<11:23,  1.04s/it]Training (126 / 500 Steps) (loss=2.08008):  16%|| 126/782 [03:15<11:20,  1.04s/it]Training (127 / 500 Steps) (loss=2.08398):  16%|| 126/782 [03:16<11:20,  1.04s/it]Training (127 / 500 Steps) (loss=2.08398):  16%|| 127/782 [03:16<11:17,  1.03s/it]Training (128 / 500 Steps) (loss=2.12305):  16%|| 127/782 [03:17<11:17,  1.03s/it]Training (128 / 500 Steps) (loss=2.12305):  16%|| 128/782 [03:17<11:15,  1.03s/it]Training (129 / 500 Steps) (loss=1.87793):  16%|| 128/782 [03:18<11:15,  1.03s/it]Training (129 / 500 Steps) (loss=1.87793):  16%|| 129/782 [03:18<11:12,  1.03s/it]Training (130 / 500 Steps) (loss=2.08008):  16%|| 129/782 [03:19<11:12,  1.03s/it]Training (130 / 500 Steps) (loss=2.08008):  17%|| 130/782 [03:19<11:10,  1.03s/it]Training (131 / 500 Steps) (loss=1.91309):  17%|| 130/782 [03:20<11:10,  1.03s/it]Training (131 / 500 Steps) (loss=1.91309):  17%|| 131/782 [03:20<11:09,  1.03s/it]Training (132 / 500 Steps) (loss=1.99707):  17%|| 131/782 [03:21<11:09,  1.03s/it]Training (132 / 500 Steps) (loss=1.99707):  17%|| 132/782 [03:21<11:08,  1.03s/it]Training (133 / 500 Steps) (loss=2.00586):  17%|| 132/782 [03:22<11:08,  1.03s/it]Training (133 / 500 Steps) (loss=2.00586):  17%|| 133/782 [03:22<11:07,  1.03s/it]Training (134 / 500 Steps) (loss=2.09766):  17%|| 133/782 [03:24<11:07,  1.03s/it]Training (134 / 500 Steps) (loss=2.09766):  17%|| 134/782 [03:24<11:08,  1.03s/it]Training (135 / 500 Steps) (loss=1.82617):  17%|| 134/782 [03:25<11:08,  1.03s/it]Training (135 / 500 Steps) (loss=1.82617):  17%|| 135/782 [03:25<11:07,  1.03s/it]Training (136 / 500 Steps) (loss=1.98633):  17%|| 135/782 [03:26<11:07,  1.03s/it]Training (136 / 500 Steps) (loss=1.98633):  17%|| 136/782 [03:26<11:05,  1.03s/it]Training (137 / 500 Steps) (loss=2.04492):  17%|| 136/782 [03:27<11:05,  1.03s/it]Training (137 / 500 Steps) (loss=2.04492):  18%|| 137/782 [03:27<11:04,  1.03s/it]Training (138 / 500 Steps) (loss=2.04492):  18%|| 137/782 [03:28<11:04,  1.03s/it]Training (138 / 500 Steps) (loss=2.04492):  18%|| 138/782 [03:28<11:02,  1.03s/it]Training (139 / 500 Steps) (loss=1.90820):  18%|| 138/782 [03:29<11:02,  1.03s/it]Training (139 / 500 Steps) (loss=1.90820):  18%|| 139/782 [03:29<11:01,  1.03s/it]Training (140 / 500 Steps) (loss=1.89844):  18%|| 139/782 [03:30<11:01,  1.03s/it]Training (140 / 500 Steps) (loss=1.89844):  18%|| 140/782 [03:30<11:03,  1.03s/it]Training (141 / 500 Steps) (loss=2.08203):  18%|| 140/782 [03:31<11:03,  1.03s/it]Training (141 / 500 Steps) (loss=2.08203):  18%|| 141/782 [03:31<11:00,  1.03s/it]Training (142 / 500 Steps) (loss=2.03711):  18%|| 141/782 [03:32<11:00,  1.03s/it]Training (142 / 500 Steps) (loss=2.03711):  18%|| 142/782 [03:32<10:58,  1.03s/it]Training (143 / 500 Steps) (loss=1.95312):  18%|| 142/782 [03:33<10:58,  1.03s/it]Training (143 / 500 Steps) (loss=1.95312):  18%|| 143/782 [03:33<10:57,  1.03s/it]Training (144 / 500 Steps) (loss=2.03125):  18%|| 143/782 [03:34<10:57,  1.03s/it]Training (144 / 500 Steps) (loss=2.03125):  18%|| 144/782 [03:34<10:56,  1.03s/it]Training (145 / 500 Steps) (loss=1.87109):  18%|| 144/782 [03:35<10:56,  1.03s/it]Training (145 / 500 Steps) (loss=1.87109):  19%|| 145/782 [03:35<10:55,  1.03s/it]Training (146 / 500 Steps) (loss=2.05859):  19%|| 145/782 [03:36<10:55,  1.03s/it]Training (146 / 500 Steps) (loss=2.05859):  19%|| 146/782 [03:36<10:53,  1.03s/it]Training (147 / 500 Steps) (loss=2.27930):  19%|| 146/782 [03:37<10:53,  1.03s/it]Training (147 / 500 Steps) (loss=2.27930):  19%|| 147/782 [03:37<10:52,  1.03s/it]Training (148 / 500 Steps) (loss=1.89258):  19%|| 147/782 [03:38<10:52,  1.03s/it]Training (148 / 500 Steps) (loss=1.89258):  19%|| 148/782 [03:38<10:51,  1.03s/it]Training (149 / 500 Steps) (loss=1.86328):  19%|| 148/782 [03:39<10:51,  1.03s/it]Training (149 / 500 Steps) (loss=1.86328):  19%|| 149/782 [03:39<10:51,  1.03s/it]Training (150 / 500 Steps) (loss=2.10352):  19%|| 149/782 [03:40<10:51,  1.03s/it]Training (150 / 500 Steps) (loss=2.10352):  19%|| 150/782 [03:40<10:50,  1.03s/it]Training (151 / 500 Steps) (loss=2.13281):  19%|| 150/782 [03:41<10:50,  1.03s/it]Training (151 / 500 Steps) (loss=2.13281):  19%|| 151/782 [03:41<10:49,  1.03s/it]Training (152 / 500 Steps) (loss=2.06250):  19%|| 151/782 [03:42<10:49,  1.03s/it]Training (152 / 500 Steps) (loss=2.06250):  19%|| 152/782 [03:42<10:48,  1.03s/it]Training (153 / 500 Steps) (loss=1.98340):  19%|| 152/782 [03:43<10:48,  1.03s/it]Training (153 / 500 Steps) (loss=1.98340):  20%|| 153/782 [03:43<10:47,  1.03s/it]Training (154 / 500 Steps) (loss=1.98047):  20%|| 153/782 [03:44<10:47,  1.03s/it]Training (154 / 500 Steps) (loss=1.98047):  20%|| 154/782 [03:44<10:46,  1.03s/it]Training (155 / 500 Steps) (loss=2.00195):  20%|| 154/782 [03:45<10:46,  1.03s/it]Training (155 / 500 Steps) (loss=2.00195):  20%|| 155/782 [03:45<10:45,  1.03s/it]Training (156 / 500 Steps) (loss=2.01562):  20%|| 155/782 [03:46<10:45,  1.03s/it]Training (156 / 500 Steps) (loss=2.01562):  20%|| 156/782 [03:46<10:44,  1.03s/it]Training (157 / 500 Steps) (loss=1.87500):  20%|| 156/782 [03:47<10:44,  1.03s/it]Training (157 / 500 Steps) (loss=1.87500):  20%|| 157/782 [03:47<10:45,  1.03s/it]Training (158 / 500 Steps) (loss=2.07422):  20%|| 157/782 [03:48<10:45,  1.03s/it]Training (158 / 500 Steps) (loss=2.07422):  20%|| 158/782 [03:48<10:44,  1.03s/it]Training (159 / 500 Steps) (loss=2.01758):  20%|| 158/782 [03:49<10:44,  1.03s/it]Training (159 / 500 Steps) (loss=2.01758):  20%|| 159/782 [03:49<10:43,  1.03s/it]Training (160 / 500 Steps) (loss=2.08398):  20%|| 159/782 [03:50<10:43,  1.03s/it]Training (160 / 500 Steps) (loss=2.08398):  20%|| 160/782 [03:50<10:42,  1.03s/it]Training (161 / 500 Steps) (loss=2.11914):  20%|| 160/782 [03:51<10:42,  1.03s/it]Training (161 / 500 Steps) (loss=2.11914):  21%|| 161/782 [03:51<10:40,  1.03s/it]Training (162 / 500 Steps) (loss=1.97656):  21%|| 161/782 [03:52<10:40,  1.03s/it]Training (162 / 500 Steps) (loss=1.97656):  21%|| 162/782 [03:52<10:39,  1.03s/it]Training (163 / 500 Steps) (loss=1.97363):  21%|| 162/782 [03:53<10:39,  1.03s/it]Training (163 / 500 Steps) (loss=1.97363):  21%|| 163/782 [03:53<10:37,  1.03s/it]Training (164 / 500 Steps) (loss=1.89258):  21%|| 163/782 [03:54<10:37,  1.03s/it]Training (164 / 500 Steps) (loss=1.89258):  21%|| 164/782 [03:54<10:36,  1.03s/it]Training (165 / 500 Steps) (loss=1.90625):  21%|| 164/782 [03:55<10:36,  1.03s/it]Training (165 / 500 Steps) (loss=1.90625):  21%|| 165/782 [03:55<10:35,  1.03s/it]Training (166 / 500 Steps) (loss=2.02344):  21%|| 165/782 [03:56<10:35,  1.03s/it]Training (166 / 500 Steps) (loss=2.02344):  21%|| 166/782 [03:56<10:34,  1.03s/it]Training (167 / 500 Steps) (loss=2.00781):  21%|| 166/782 [03:58<10:34,  1.03s/it]Training (167 / 500 Steps) (loss=2.00781):  21%|| 167/782 [03:58<10:35,  1.03s/it]Training (168 / 500 Steps) (loss=1.77637):  21%|| 167/782 [03:59<10:35,  1.03s/it]Training (168 / 500 Steps) (loss=1.77637):  21%|| 168/782 [03:59<10:34,  1.03s/it]Training (169 / 500 Steps) (loss=2.05664):  21%|| 168/782 [04:00<10:34,  1.03s/it]Training (169 / 500 Steps) (loss=2.05664):  22%|| 169/782 [04:00<10:32,  1.03s/it]Training (170 / 500 Steps) (loss=2.07031):  22%|| 169/782 [04:01<10:32,  1.03s/it]Training (170 / 500 Steps) (loss=2.07031):  22%|| 170/782 [04:01<10:31,  1.03s/it]Training (171 / 500 Steps) (loss=2.06641):  22%|| 170/782 [04:02<10:31,  1.03s/it]Training (171 / 500 Steps) (loss=2.06641):  22%|| 171/782 [04:02<10:28,  1.03s/it]Training (172 / 500 Steps) (loss=1.98926):  22%|| 171/782 [04:03<10:28,  1.03s/it]Training (172 / 500 Steps) (loss=1.98926):  22%|| 172/782 [04:03<10:27,  1.03s/it]Training (173 / 500 Steps) (loss=1.95605):  22%|| 172/782 [04:04<10:27,  1.03s/it]Training (173 / 500 Steps) (loss=1.95605):  22%|| 173/782 [04:04<10:26,  1.03s/it]Training (174 / 500 Steps) (loss=2.03516):  22%|| 173/782 [04:05<10:26,  1.03s/it]Training (174 / 500 Steps) (loss=2.03516):  22%|| 174/782 [04:05<10:24,  1.03s/it]Training (175 / 500 Steps) (loss=2.13477):  22%|| 174/782 [04:06<10:24,  1.03s/it]Training (175 / 500 Steps) (loss=2.13477):  22%|| 175/782 [04:06<10:24,  1.03s/it]Training (176 / 500 Steps) (loss=1.78125):  22%|| 175/782 [04:07<10:24,  1.03s/it]Training (176 / 500 Steps) (loss=1.78125):  23%|| 176/782 [04:07<10:23,  1.03s/it]Training (177 / 500 Steps) (loss=2.00195):  23%|| 176/782 [04:08<10:23,  1.03s/it]Training (177 / 500 Steps) (loss=2.00195):  23%|| 177/782 [04:08<10:21,  1.03s/it]Training (178 / 500 Steps) (loss=2.12305):  23%|| 177/782 [04:09<10:21,  1.03s/it]Training (178 / 500 Steps) (loss=2.12305):  23%|| 178/782 [04:09<10:21,  1.03s/it]Training (179 / 500 Steps) (loss=2.17578):  23%|| 178/782 [04:10<10:21,  1.03s/it]Training (179 / 500 Steps) (loss=2.17578):  23%|| 179/782 [04:10<10:20,  1.03s/it]Training (180 / 500 Steps) (loss=1.82129):  23%|| 179/782 [04:11<10:20,  1.03s/it]Training (180 / 500 Steps) (loss=1.82129):  23%|| 180/782 [04:11<10:19,  1.03s/it]Training (181 / 500 Steps) (loss=2.06250):  23%|| 180/782 [04:12<10:19,  1.03s/it]Training (181 / 500 Steps) (loss=2.06250):  23%|| 181/782 [04:12<10:18,  1.03s/it]Training (182 / 500 Steps) (loss=1.95996):  23%|| 181/782 [04:13<10:18,  1.03s/it]Training (182 / 500 Steps) (loss=1.95996):  23%|| 182/782 [04:13<10:17,  1.03s/it]Training (183 / 500 Steps) (loss=2.14648):  23%|| 182/782 [04:14<10:17,  1.03s/it]Training (183 / 500 Steps) (loss=2.14648):  23%|| 183/782 [04:14<10:16,  1.03s/it]Training (184 / 500 Steps) (loss=2.05273):  23%|| 183/782 [04:15<10:16,  1.03s/it]Training (184 / 500 Steps) (loss=2.05273):  24%|| 184/782 [04:15<10:15,  1.03s/it]Training (185 / 500 Steps) (loss=1.97070):  24%|| 184/782 [04:16<10:15,  1.03s/it]Training (185 / 500 Steps) (loss=1.97070):  24%|| 185/782 [04:16<10:14,  1.03s/it]Training (186 / 500 Steps) (loss=2.12109):  24%|| 185/782 [04:17<10:14,  1.03s/it]Training (186 / 500 Steps) (loss=2.12109):  24%|| 186/782 [04:17<10:15,  1.03s/it]Training (187 / 500 Steps) (loss=1.85156):  24%|| 186/782 [04:18<10:15,  1.03s/it]Training (187 / 500 Steps) (loss=1.85156):  24%|| 187/782 [04:18<10:13,  1.03s/it]Training (188 / 500 Steps) (loss=1.98730):  24%|| 187/782 [04:19<10:13,  1.03s/it]Training (188 / 500 Steps) (loss=1.98730):  24%|| 188/782 [04:19<10:11,  1.03s/it]Training (189 / 500 Steps) (loss=2.14648):  24%|| 188/782 [04:20<10:11,  1.03s/it]Training (189 / 500 Steps) (loss=2.14648):  24%|| 189/782 [04:20<10:11,  1.03s/it]Training (190 / 500 Steps) (loss=1.93457):  24%|| 189/782 [04:21<10:11,  1.03s/it]Training (190 / 500 Steps) (loss=1.93457):  24%|| 190/782 [04:21<10:10,  1.03s/it]Training (191 / 500 Steps) (loss=2.05273):  24%|| 190/782 [04:22<10:10,  1.03s/it]Training (191 / 500 Steps) (loss=2.05273):  24%|| 191/782 [04:22<10:10,  1.03s/it]Training (192 / 500 Steps) (loss=2.06250):  24%|| 191/782 [04:23<10:10,  1.03s/it]Training (192 / 500 Steps) (loss=2.06250):  25%|| 192/782 [04:23<10:08,  1.03s/it]Training (193 / 500 Steps) (loss=2.11523):  25%|| 192/782 [04:24<10:08,  1.03s/it]Training (193 / 500 Steps) (loss=2.11523):  25%|| 193/782 [04:24<10:08,  1.03s/it]Training (194 / 500 Steps) (loss=2.08789):  25%|| 193/782 [04:25<10:08,  1.03s/it]Training (194 / 500 Steps) (loss=2.08789):  25%|| 194/782 [04:25<10:06,  1.03s/it]Training (195 / 500 Steps) (loss=2.06445):  25%|| 194/782 [04:26<10:06,  1.03s/it]Training (195 / 500 Steps) (loss=2.06445):  25%|| 195/782 [04:26<10:05,  1.03s/it]Training (196 / 500 Steps) (loss=2.03125):  25%|| 195/782 [04:27<10:05,  1.03s/it]Training (196 / 500 Steps) (loss=2.03125):  25%|| 196/782 [04:27<10:04,  1.03s/it]Training (197 / 500 Steps) (loss=1.88770):  25%|| 196/782 [04:28<10:04,  1.03s/it]Training (197 / 500 Steps) (loss=1.88770):  25%|| 197/782 [04:28<10:03,  1.03s/it]Training (198 / 500 Steps) (loss=2.09961):  25%|| 197/782 [04:29<10:03,  1.03s/it]Training (198 / 500 Steps) (loss=2.09961):  25%|| 198/782 [04:29<10:02,  1.03s/it]Training (199 / 500 Steps) (loss=1.87988):  25%|| 198/782 [04:30<10:02,  1.03s/it]Training (199 / 500 Steps) (loss=1.87988):  25%|| 199/782 [04:30<10:01,  1.03s/it]Training (200 / 500 Steps) (loss=2.05859):  25%|| 199/782 [04:31<10:01,  1.03s/it]09/24/2022 06:51:50 - INFO - __main__ - ***** Running Validation *****
09/24/2022 06:51:50 - INFO - __main__ -   Num steps = 157
09/24/2022 06:51:50 - INFO - __main__ -   Batch size = 64

Validating... (loss=X.X):   0%|| 0/157 [00:00<?, ?it/s][A
Validating... (loss=1.87707):   0%|| 0/157 [00:01<?, ?it/s][A
Validating... (loss=1.87707):   1%|| 1/157 [00:01<02:47,  1.08s/it][A
Validating... (loss=2.04207):   1%|| 1/157 [00:01<02:47,  1.08s/it][A
Validating... (loss=2.04207):   1%|| 2/157 [00:01<01:40,  1.55it/s][A
Validating... (loss=2.11091):   1%|| 2/157 [00:01<01:40,  1.55it/s][A
Validating... (loss=2.11091):   2%|| 3/157 [00:01<01:18,  1.97it/s][A
Validating... (loss=1.99354):   2%|| 3/157 [00:02<01:18,  1.97it/s][A
Validating... (loss=1.99354):   3%|| 4/157 [00:02<01:07,  2.25it/s][A
Validating... (loss=1.92896):   3%|| 4/157 [00:02<01:07,  2.25it/s][A
Validating... (loss=1.92896):   3%|| 5/157 [00:02<01:02,  2.45it/s][A
Validating... (loss=2.13216):   3%|| 5/157 [00:02<01:02,  2.45it/s][A
Validating... (loss=2.13216):   4%|| 6/157 [00:02<00:58,  2.58it/s][A
Validating... (loss=2.02791):   4%|| 6/157 [00:03<00:58,  2.58it/s][A
Validating... (loss=2.02791):   4%|| 7/157 [00:03<00:55,  2.68it/s][A
Validating... (loss=1.83468):   4%|| 7/157 [00:03<00:55,  2.68it/s][A
Validating... (loss=1.83468):   5%|| 8/157 [00:03<00:54,  2.75it/s][A
Validating... (loss=2.00389):   5%|| 8/157 [00:03<00:54,  2.75it/s][A
Validating... (loss=2.00389):   6%|| 9/157 [00:03<00:52,  2.80it/s][A
Validating... (loss=1.97729):   6%|| 9/157 [00:04<00:52,  2.80it/s][A
Validating... (loss=1.97729):   6%|| 10/157 [00:04<00:51,  2.84it/s][A
Validating... (loss=2.20272):   6%|| 10/157 [00:04<00:51,  2.84it/s][A
Validating... (loss=2.20272):   7%|| 11/157 [00:04<00:51,  2.86it/s][A
Validating... (loss=2.04675):   7%|| 11/157 [00:04<00:51,  2.86it/s][A
Validating... (loss=2.04675):   8%|| 12/157 [00:04<00:50,  2.88it/s][A
Validating... (loss=2.07994):   8%|| 12/157 [00:05<00:50,  2.88it/s][A
Validating... (loss=2.07994):   8%|| 13/157 [00:05<00:49,  2.89it/s][A
Validating... (loss=1.90895):   8%|| 13/157 [00:05<00:49,  2.89it/s][A
Validating... (loss=1.90895):   9%|| 14/157 [00:05<00:49,  2.89it/s][A
Validating... (loss=1.99319):   9%|| 14/157 [00:05<00:49,  2.89it/s][A
Validating... (loss=1.99319):  10%|| 15/157 [00:05<00:49,  2.90it/s][A
Validating... (loss=1.92551):  10%|| 15/157 [00:06<00:49,  2.90it/s][A
Validating... (loss=1.92551):  10%|| 16/157 [00:06<00:48,  2.88it/s][A
Validating... (loss=2.03690):  10%|| 16/157 [00:06<00:48,  2.88it/s][A
Validating... (loss=2.03690):  11%|| 17/157 [00:06<00:48,  2.88it/s][A
Validating... (loss=1.96779):  11%|| 17/157 [00:06<00:48,  2.88it/s][A
Validating... (loss=1.96779):  11%|| 18/157 [00:06<00:48,  2.89it/s][A
Validating... (loss=1.93859):  11%|| 18/157 [00:07<00:48,  2.89it/s][A
Validating... (loss=1.93859):  12%|| 19/157 [00:07<00:47,  2.90it/s][A
Validating... (loss=2.10810):  12%|| 19/157 [00:07<00:47,  2.90it/s][A
Validating... (loss=2.10810):  13%|| 20/157 [00:07<00:47,  2.90it/s][A
Validating... (loss=2.00485):  13%|| 20/157 [00:07<00:47,  2.90it/s][A
Validating... (loss=2.00485):  13%|| 21/157 [00:07<00:46,  2.90it/s][A
Validating... (loss=2.02490):  13%|| 21/157 [00:08<00:46,  2.90it/s][A
Validating... (loss=2.02490):  14%|| 22/157 [00:08<00:46,  2.91it/s][A
Validating... (loss=1.80524):  14%|| 22/157 [00:08<00:46,  2.91it/s][A
Validating... (loss=1.80524):  15%|| 23/157 [00:08<00:46,  2.91it/s][A
Validating... (loss=1.87680):  15%|| 23/157 [00:08<00:46,  2.91it/s][A
Validating... (loss=1.87680):  15%|| 24/157 [00:08<00:45,  2.91it/s][A
Validating... (loss=1.92419):  15%|| 24/157 [00:09<00:45,  2.91it/s][A
Validating... (loss=1.92419):  16%|| 25/157 [00:09<00:45,  2.91it/s][A
Validating... (loss=1.99550):  16%|| 25/157 [00:09<00:45,  2.91it/s][A
Validating... (loss=1.99550):  17%|| 26/157 [00:09<00:45,  2.91it/s][A
Validating... (loss=1.90937):  17%|| 26/157 [00:10<00:45,  2.91it/s][A
Validating... (loss=1.90937):  17%|| 27/157 [00:10<00:44,  2.91it/s][A
Validating... (loss=1.78443):  17%|| 27/157 [00:10<00:44,  2.91it/s][A
Validating... (loss=1.78443):  18%|| 28/157 [00:10<00:44,  2.91it/s][A
Validating... (loss=2.08969):  18%|| 28/157 [00:10<00:44,  2.91it/s][A
Validating... (loss=2.08969):  18%|| 29/157 [00:10<00:43,  2.91it/s][A
Validating... (loss=2.01896):  18%|| 29/157 [00:11<00:43,  2.91it/s][A
Validating... (loss=2.01896):  19%|| 30/157 [00:11<00:43,  2.91it/s][A
Validating... (loss=1.96095):  19%|| 30/157 [00:11<00:43,  2.91it/s][A
Validating... (loss=1.96095):  20%|| 31/157 [00:11<00:43,  2.91it/s][A
Validating... (loss=1.92928):  20%|| 31/157 [00:11<00:43,  2.91it/s][A
Validating... (loss=1.92928):  20%|| 32/157 [00:11<00:42,  2.91it/s][A
Validating... (loss=1.95969):  20%|| 32/157 [00:12<00:42,  2.91it/s][A
Validating... (loss=1.95969):  21%|| 33/157 [00:12<00:42,  2.91it/s][A
Validating... (loss=1.98533):  21%|| 33/157 [00:12<00:42,  2.91it/s][A
Validating... (loss=1.98533):  22%|| 34/157 [00:12<00:42,  2.91it/s][A
Validating... (loss=1.91616):  22%|| 34/157 [00:12<00:42,  2.91it/s][A
Validating... (loss=1.91616):  22%|| 35/157 [00:12<00:41,  2.91it/s][A
Validating... (loss=2.00565):  22%|| 35/157 [00:13<00:41,  2.91it/s][A
Validating... (loss=2.00565):  23%|| 36/157 [00:13<00:41,  2.91it/s][A
Validating... (loss=1.96035):  23%|| 36/157 [00:13<00:41,  2.91it/s][A
Validating... (loss=1.96035):  24%|| 37/157 [00:13<00:41,  2.90it/s][A
Validating... (loss=2.06468):  24%|| 37/157 [00:13<00:41,  2.90it/s][A
Validating... (loss=2.06468):  24%|| 38/157 [00:13<00:41,  2.90it/s][A
Validating... (loss=1.89072):  24%|| 38/157 [00:14<00:41,  2.90it/s][A
Validating... (loss=1.89072):  25%|| 39/157 [00:14<00:40,  2.90it/s][A
Validating... (loss=2.06989):  25%|| 39/157 [00:14<00:40,  2.90it/s][A
Validating... (loss=2.06989):  25%|| 40/157 [00:14<00:40,  2.91it/s][A
Validating... (loss=1.91529):  25%|| 40/157 [00:14<00:40,  2.91it/s][A
Validating... (loss=1.91529):  26%|| 41/157 [00:14<00:39,  2.91it/s][A
Validating... (loss=1.86928):  26%|| 41/157 [00:15<00:39,  2.91it/s][A
Validating... (loss=1.86928):  27%|| 42/157 [00:15<00:39,  2.91it/s][A
Validating... (loss=1.89860):  27%|| 42/157 [00:15<00:39,  2.91it/s][A
Validating... (loss=1.89860):  27%|| 43/157 [00:15<00:39,  2.91it/s][A
Validating... (loss=2.11502):  27%|| 43/157 [00:15<00:39,  2.91it/s][A
Validating... (loss=2.11502):  28%|| 44/157 [00:15<00:38,  2.91it/s][A
Validating... (loss=2.10451):  28%|| 44/157 [00:16<00:38,  2.91it/s][A
Validating... (loss=2.10451):  29%|| 45/157 [00:16<00:38,  2.91it/s][A
Validating... (loss=1.97747):  29%|| 45/157 [00:16<00:38,  2.91it/s][A
Validating... (loss=1.97747):  29%|| 46/157 [00:16<00:38,  2.90it/s][A
Validating... (loss=1.91742):  29%|| 46/157 [00:16<00:38,  2.90it/s][A
Validating... (loss=1.91742):  30%|| 47/157 [00:16<00:38,  2.88it/s][A
Validating... (loss=1.88816):  30%|| 47/157 [00:17<00:38,  2.88it/s][A
Validating... (loss=1.88816):  31%|| 48/157 [00:17<00:37,  2.89it/s][A
Validating... (loss=2.01108):  31%|| 48/157 [00:17<00:37,  2.89it/s][A
Validating... (loss=2.01108):  31%|| 49/157 [00:17<00:37,  2.89it/s][A
Validating... (loss=1.98683):  31%|| 49/157 [00:17<00:37,  2.89it/s][A
Validating... (loss=1.98683):  32%|| 50/157 [00:17<00:36,  2.90it/s][A
Validating... (loss=2.18521):  32%|| 50/157 [00:18<00:36,  2.90it/s][A
Validating... (loss=2.18521):  32%|| 51/157 [00:18<00:36,  2.90it/s][A
Validating... (loss=1.98589):  32%|| 51/157 [00:18<00:36,  2.90it/s][A
Validating... (loss=1.98589):  33%|| 52/157 [00:18<00:36,  2.91it/s][A
Validating... (loss=1.87791):  33%|| 52/157 [00:18<00:36,  2.91it/s][A
Validating... (loss=1.87791):  34%|| 53/157 [00:18<00:35,  2.91it/s][A
Validating... (loss=1.97396):  34%|| 53/157 [00:19<00:35,  2.91it/s][A
Validating... (loss=1.97396):  34%|| 54/157 [00:19<00:35,  2.91it/s][A
Validating... (loss=2.07528):  34%|| 54/157 [00:19<00:35,  2.91it/s][A
Validating... (loss=2.07528):  35%|| 55/157 [00:19<00:35,  2.91it/s][A
Validating... (loss=1.89364):  35%|| 55/157 [00:20<00:35,  2.91it/s][A
Validating... (loss=1.89364):  36%|| 56/157 [00:20<00:34,  2.91it/s][A
Validating... (loss=2.00300):  36%|| 56/157 [00:20<00:34,  2.91it/s][A
Validating... (loss=2.00300):  36%|| 57/157 [00:20<00:34,  2.91it/s][A
Validating... (loss=1.82118):  36%|| 57/157 [00:20<00:34,  2.91it/s][A
Validating... (loss=1.82118):  37%|| 58/157 [00:20<00:34,  2.91it/s][A
Validating... (loss=2.11167):  37%|| 58/157 [00:21<00:34,  2.91it/s][A
Validating... (loss=2.11167):  38%|| 59/157 [00:21<00:33,  2.91it/s][A
Validating... (loss=1.89288):  38%|| 59/157 [00:21<00:33,  2.91it/s][A
Validating... (loss=1.89288):  38%|| 60/157 [00:21<00:33,  2.91it/s][A
Validating... (loss=1.94895):  38%|| 60/157 [00:21<00:33,  2.91it/s][A
Validating... (loss=1.94895):  39%|| 61/157 [00:21<00:32,  2.91it/s][A
Validating... (loss=1.88037):  39%|| 61/157 [00:22<00:32,  2.91it/s][A
Validating... (loss=1.88037):  39%|| 62/157 [00:22<00:32,  2.91it/s][A
Validating... (loss=1.99690):  39%|| 62/157 [00:22<00:32,  2.91it/s][A
Validating... (loss=1.99690):  40%|| 63/157 [00:22<00:32,  2.91it/s][A
Validating... (loss=2.03262):  40%|| 63/157 [00:22<00:32,  2.91it/s][A
Validating... (loss=2.03262):  41%|| 64/157 [00:22<00:31,  2.91it/s][A
Validating... (loss=2.07643):  41%|| 64/157 [00:23<00:31,  2.91it/s][A
Validating... (loss=2.07643):  41%|| 65/157 [00:23<00:31,  2.91it/s][A
Validating... (loss=1.99896):  41%|| 65/157 [00:23<00:31,  2.91it/s][A
Validating... (loss=1.99896):  42%|| 66/157 [00:23<00:31,  2.91it/s][A
Validating... (loss=1.90596):  42%|| 66/157 [00:23<00:31,  2.91it/s][A
Validating... (loss=1.90596):  43%|| 67/157 [00:23<00:30,  2.91it/s][A
Validating... (loss=1.94311):  43%|| 67/157 [00:24<00:30,  2.91it/s][A
Validating... (loss=1.94311):  43%|| 68/157 [00:24<00:30,  2.91it/s][A
Validating... (loss=1.91474):  43%|| 68/157 [00:24<00:30,  2.91it/s][A
Validating... (loss=1.91474):  44%|| 69/157 [00:24<00:30,  2.91it/s][A
Validating... (loss=1.91162):  44%|| 69/157 [00:24<00:30,  2.91it/s][A
Validating... (loss=1.91162):  45%|| 70/157 [00:24<00:29,  2.91it/s][A
Validating... (loss=2.05936):  45%|| 70/157 [00:25<00:29,  2.91it/s][A
Validating... (loss=2.05936):  45%|| 71/157 [00:25<00:29,  2.90it/s][A
Validating... (loss=2.14380):  45%|| 71/157 [00:25<00:29,  2.90it/s][A
Validating... (loss=2.14380):  46%|| 72/157 [00:25<00:29,  2.91it/s][A
Validating... (loss=1.81911):  46%|| 72/157 [00:25<00:29,  2.91it/s][A
Validating... (loss=1.81911):  46%|| 73/157 [00:25<00:28,  2.91it/s][A
Validating... (loss=2.02493):  46%|| 73/157 [00:26<00:28,  2.91it/s][A
Validating... (loss=2.02493):  47%|| 74/157 [00:26<00:28,  2.91it/s][A
Validating... (loss=2.12817):  47%|| 74/157 [00:26<00:28,  2.91it/s][A
Validating... (loss=2.12817):  48%|| 75/157 [00:26<00:28,  2.91it/s][A
Validating... (loss=1.86580):  48%|| 75/157 [00:26<00:28,  2.91it/s][A
Validating... (loss=1.86580):  48%|| 76/157 [00:26<00:27,  2.91it/s][A
Validating... (loss=1.81651):  48%|| 76/157 [00:27<00:27,  2.91it/s][A
Validating... (loss=1.81651):  49%|| 77/157 [00:27<00:27,  2.90it/s][A
Validating... (loss=1.83439):  49%|| 77/157 [00:27<00:27,  2.90it/s][A
Validating... (loss=1.83439):  50%|| 78/157 [00:27<00:27,  2.91it/s][A
Validating... (loss=2.01697):  50%|| 78/157 [00:27<00:27,  2.91it/s][A
Validating... (loss=2.01697):  50%|| 79/157 [00:27<00:26,  2.91it/s][A
Validating... (loss=1.92156):  50%|| 79/157 [00:28<00:26,  2.91it/s][A
Validating... (loss=1.92156):  51%|| 80/157 [00:28<00:26,  2.91it/s][A
Validating... (loss=2.02815):  51%|| 80/157 [00:28<00:26,  2.91it/s][A
Validating... (loss=2.02815):  52%|| 81/157 [00:28<00:26,  2.91it/s][A
Validating... (loss=2.02372):  52%|| 81/157 [00:28<00:26,  2.91it/s][A
Validating... (loss=2.02372):  52%|| 82/157 [00:28<00:25,  2.91it/s][A
Validating... (loss=1.90251):  52%|| 82/157 [00:29<00:25,  2.91it/s][A
Validating... (loss=1.90251):  53%|| 83/157 [00:29<00:25,  2.91it/s][A
Validating... (loss=1.98094):  53%|| 83/157 [00:29<00:25,  2.91it/s][A
Validating... (loss=1.98094):  54%|| 84/157 [00:29<00:25,  2.91it/s][A
Validating... (loss=1.99493):  54%|| 84/157 [00:29<00:25,  2.91it/s][A
Validating... (loss=1.99493):  54%|| 85/157 [00:29<00:24,  2.91it/s][A
Validating... (loss=1.99285):  54%|| 85/157 [00:30<00:24,  2.91it/s][A
Validating... (loss=1.99285):  55%|| 86/157 [00:30<00:24,  2.91it/s][A
Validating... (loss=2.13773):  55%|| 86/157 [00:30<00:24,  2.91it/s][A
Validating... (loss=2.13773):  55%|| 87/157 [00:30<00:24,  2.91it/s][A
Validating... (loss=2.14830):  55%|| 87/157 [00:31<00:24,  2.91it/s][A
Validating... (loss=2.14830):  56%|| 88/157 [00:31<00:23,  2.91it/s][A
Validating... (loss=2.16705):  56%|| 88/157 [00:31<00:23,  2.91it/s][A
Validating... (loss=2.16705):  57%|| 89/157 [00:31<00:23,  2.91it/s][A
Validating... (loss=1.89468):  57%|| 89/157 [00:31<00:23,  2.91it/s][A
Validating... (loss=1.89468):  57%|| 90/157 [00:31<00:23,  2.91it/s][A
Validating... (loss=1.90453):  57%|| 90/157 [00:32<00:23,  2.91it/s][A
Validating... (loss=1.90453):  58%|| 91/157 [00:32<00:22,  2.91it/s][A
Validating... (loss=1.99333):  58%|| 91/157 [00:32<00:22,  2.91it/s][A
Validating... (loss=1.99333):  59%|| 92/157 [00:32<00:22,  2.91it/s][A
Validating... (loss=1.91954):  59%|| 92/157 [00:32<00:22,  2.91it/s][A
Validating... (loss=1.91954):  59%|| 93/157 [00:32<00:21,  2.91it/s][A
Validating... (loss=2.11548):  59%|| 93/157 [00:33<00:21,  2.91it/s][A
Validating... (loss=2.11548):  60%|| 94/157 [00:33<00:21,  2.91it/s][A
Validating... (loss=1.92986):  60%|| 94/157 [00:33<00:21,  2.91it/s][A
Validating... (loss=1.92986):  61%|| 95/157 [00:33<00:21,  2.91it/s][A
Validating... (loss=2.10157):  61%|| 95/157 [00:33<00:21,  2.91it/s][A
Validating... (loss=2.10157):  61%|| 96/157 [00:33<00:20,  2.91it/s][A
Validating... (loss=2.02996):  61%|| 96/157 [00:34<00:20,  2.91it/s][A
Validating... (loss=2.02996):  62%|| 97/157 [00:34<00:20,  2.91it/s][A
Validating... (loss=1.90896):  62%|| 97/157 [00:34<00:20,  2.91it/s][A
Validating... (loss=1.90896):  62%|| 98/157 [00:34<00:20,  2.91it/s][A
Validating... (loss=1.88034):  62%|| 98/157 [00:34<00:20,  2.91it/s][A
Validating... (loss=1.88034):  63%|| 99/157 [00:34<00:19,  2.91it/s][A
Validating... (loss=2.02722):  63%|| 99/157 [00:35<00:19,  2.91it/s][A
Validating... (loss=2.02722):  64%|| 100/157 [00:35<00:19,  2.91it/s][A
Validating... (loss=1.99839):  64%|| 100/157 [00:35<00:19,  2.91it/s][A
Validating... (loss=1.99839):  64%|| 101/157 [00:35<00:19,  2.91it/s][A
Validating... (loss=1.90921):  64%|| 101/157 [00:35<00:19,  2.91it/s][A
Validating... (loss=1.90921):  65%|| 102/157 [00:35<00:18,  2.91it/s][A
Validating... (loss=2.09492):  65%|| 102/157 [00:36<00:18,  2.91it/s][A
Validating... (loss=2.09492):  66%|| 103/157 [00:36<00:18,  2.90it/s][A
Validating... (loss=1.89253):  66%|| 103/157 [00:36<00:18,  2.90it/s][A
Validating... (loss=1.89253):  66%|| 104/157 [00:36<00:18,  2.89it/s][A
Validating... (loss=2.06700):  66%|| 104/157 [00:36<00:18,  2.89it/s][A
Validating... (loss=2.06700):  67%|| 105/157 [00:36<00:17,  2.89it/s][A
Validating... (loss=2.01099):  67%|| 105/157 [00:37<00:17,  2.89it/s][A
Validating... (loss=2.01099):  68%|| 106/157 [00:37<00:17,  2.90it/s][A
Validating... (loss=1.89005):  68%|| 106/157 [00:37<00:17,  2.90it/s][A
Validating... (loss=1.89005):  68%|| 107/157 [00:37<00:17,  2.90it/s][A
Validating... (loss=2.14271):  68%|| 107/157 [00:37<00:17,  2.90it/s][A
Validating... (loss=2.14271):  69%|| 108/157 [00:37<00:16,  2.90it/s][A
Validating... (loss=2.08797):  69%|| 108/157 [00:38<00:16,  2.90it/s][A
Validating... (loss=2.08797):  69%|| 109/157 [00:38<00:16,  2.90it/s][A
Validating... (loss=2.01119):  69%|| 109/157 [00:38<00:16,  2.90it/s][A
Validating... (loss=2.01119):  70%|| 110/157 [00:38<00:16,  2.90it/s][A
Validating... (loss=1.98852):  70%|| 110/157 [00:38<00:16,  2.90it/s][A
Validating... (loss=1.98852):  71%|| 111/157 [00:38<00:15,  2.90it/s][A
Validating... (loss=1.89619):  71%|| 111/157 [00:39<00:15,  2.90it/s][A
Validating... (loss=1.89619):  71%|| 112/157 [00:39<00:15,  2.90it/s][A
Validating... (loss=2.03816):  71%|| 112/157 [00:39<00:15,  2.90it/s][A
Validating... (loss=2.03816):  72%|| 113/157 [00:39<00:15,  2.91it/s][A
Validating... (loss=1.78379):  72%|| 113/157 [00:39<00:15,  2.91it/s][A
Validating... (loss=1.78379):  73%|| 114/157 [00:39<00:14,  2.91it/s][A
Validating... (loss=1.87827):  73%|| 114/157 [00:40<00:14,  2.91it/s][A
Validating... (loss=1.87827):  73%|| 115/157 [00:40<00:14,  2.91it/s][A
Validating... (loss=2.03046):  73%|| 115/157 [00:40<00:14,  2.91it/s][A
Validating... (loss=2.03046):  74%|| 116/157 [00:40<00:14,  2.91it/s][A
Validating... (loss=1.85403):  74%|| 116/157 [00:40<00:14,  2.91it/s][A
Validating... (loss=1.85403):  75%|| 117/157 [00:40<00:13,  2.91it/s][A
Validating... (loss=1.97570):  75%|| 117/157 [00:41<00:13,  2.91it/s][A
Validating... (loss=1.97570):  75%|| 118/157 [00:41<00:13,  2.91it/s][A
Validating... (loss=1.81213):  75%|| 118/157 [00:41<00:13,  2.91it/s][A
Validating... (loss=1.81213):  76%|| 119/157 [00:41<00:13,  2.90it/s][A
Validating... (loss=1.86842):  76%|| 119/157 [00:42<00:13,  2.90it/s][A
Validating... (loss=1.86842):  76%|| 120/157 [00:42<00:12,  2.89it/s][A
Validating... (loss=1.84961):  76%|| 120/157 [00:42<00:12,  2.89it/s][A
Validating... (loss=1.84961):  77%|| 121/157 [00:42<00:12,  2.87it/s][A
Validating... (loss=2.06034):  77%|| 121/157 [00:42<00:12,  2.87it/s][A
Validating... (loss=2.06034):  78%|| 122/157 [00:42<00:12,  2.89it/s][A
Validating... (loss=2.04873):  78%|| 122/157 [00:43<00:12,  2.89it/s][A
Validating... (loss=2.04873):  78%|| 123/157 [00:43<00:11,  2.89it/s][A
Validating... (loss=1.85500):  78%|| 123/157 [00:43<00:11,  2.89it/s][A
Validating... (loss=1.85500):  79%|| 124/157 [00:43<00:11,  2.90it/s][A
Validating... (loss=2.09023):  79%|| 124/157 [00:43<00:11,  2.90it/s][A
Validating... (loss=2.09023):  80%|| 125/157 [00:43<00:11,  2.90it/s][A
Validating... (loss=1.91907):  80%|| 125/157 [00:44<00:11,  2.90it/s][A
Validating... (loss=1.91907):  80%|| 126/157 [00:44<00:10,  2.90it/s][A
Validating... (loss=1.96296):  80%|| 126/157 [00:44<00:10,  2.90it/s][A
Validating... (loss=1.96296):  81%|| 127/157 [00:44<00:10,  2.91it/s][A
Validating... (loss=1.95571):  81%|| 127/157 [00:44<00:10,  2.91it/s][A
Validating... (loss=1.95571):  82%|| 128/157 [00:44<00:09,  2.91it/s][A
Validating... (loss=2.05480):  82%|| 128/157 [00:45<00:09,  2.91it/s][A
Validating... (loss=2.05480):  82%|| 129/157 [00:45<00:09,  2.90it/s][A
Validating... (loss=2.18646):  82%|| 129/157 [00:45<00:09,  2.90it/s][A
Validating... (loss=2.18646):  83%|| 130/157 [00:45<00:09,  2.91it/s][A
Validating... (loss=1.93166):  83%|| 130/157 [00:45<00:09,  2.91it/s][A
Validating... (loss=1.93166):  83%|| 131/157 [00:45<00:08,  2.91it/s][A
Validating... (loss=2.03148):  83%|| 131/157 [00:46<00:08,  2.91it/s][A
Validating... (loss=2.03148):  84%|| 132/157 [00:46<00:08,  2.91it/s][A
Validating... (loss=2.02985):  84%|| 132/157 [00:46<00:08,  2.91it/s][A
Validating... (loss=2.02985):  85%|| 133/157 [00:46<00:08,  2.91it/s][A
Validating... (loss=2.04837):  85%|| 133/157 [00:46<00:08,  2.91it/s][A
Validating... (loss=2.04837):  85%|| 134/157 [00:46<00:07,  2.91it/s][A
Validating... (loss=2.07677):  85%|| 134/157 [00:47<00:07,  2.91it/s][A
Validating... (loss=2.07677):  86%|| 135/157 [00:47<00:07,  2.91it/s][A
Validating... (loss=1.95987):  86%|| 135/157 [00:47<00:07,  2.91it/s][A
Validating... (loss=1.95987):  87%|| 136/157 [00:47<00:07,  2.90it/s][A
Validating... (loss=1.97667):  87%|| 136/157 [00:47<00:07,  2.90it/s][A
Validating... (loss=1.97667):  87%|| 137/157 [00:47<00:06,  2.90it/s][A
Validating... (loss=2.00376):  87%|| 137/157 [00:48<00:06,  2.90it/s][A
Validating... (loss=2.00376):  88%|| 138/157 [00:48<00:06,  2.90it/s][A
Validating... (loss=1.93916):  88%|| 138/157 [00:48<00:06,  2.90it/s][A
Validating... (loss=1.93916):  89%|| 139/157 [00:48<00:06,  2.91it/s][A
Validating... (loss=1.83431):  89%|| 139/157 [00:48<00:06,  2.91it/s][A
Validating... (loss=1.83431):  89%|| 140/157 [00:48<00:05,  2.91it/s][A
Validating... (loss=1.89071):  89%|| 140/157 [00:49<00:05,  2.91it/s][A
Validating... (loss=1.89071):  90%|| 141/157 [00:49<00:05,  2.91it/s][A
Validating... (loss=1.99491):  90%|| 141/157 [00:49<00:05,  2.91it/s][A
Validating... (loss=1.99491):  90%|| 142/157 [00:49<00:05,  2.91it/s][A
Validating... (loss=2.11581):  90%|| 142/157 [00:49<00:05,  2.91it/s][A
Validating... (loss=2.11581):  91%|| 143/157 [00:49<00:04,  2.91it/s][A
Validating... (loss=1.84527):  91%|| 143/157 [00:50<00:04,  2.91it/s][A
Validating... (loss=1.84527):  92%|| 144/157 [00:50<00:04,  2.91it/s][A
Validating... (loss=1.91264):  92%|| 144/157 [00:50<00:04,  2.91it/s][A
Validating... (loss=1.91264):  92%|| 145/157 [00:50<00:04,  2.91it/s][A
Validating... (loss=2.11387):  92%|| 145/157 [00:50<00:04,  2.91it/s][A
Validating... (loss=2.11387):  93%|| 146/157 [00:50<00:03,  2.91it/s][A
Validating... (loss=2.14076):  93%|| 146/157 [00:51<00:03,  2.91it/s][A
Validating... (loss=2.14076):  94%|| 147/157 [00:51<00:03,  2.91it/s][A
Validating... (loss=2.02076):  94%|| 147/157 [00:51<00:03,  2.91it/s][A
Validating... (loss=2.02076):  94%|| 148/157 [00:51<00:03,  2.90it/s][A
Validating... (loss=1.98922):  94%|| 148/157 [00:52<00:03,  2.90it/s][A
Validating... (loss=1.98922):  95%|| 149/157 [00:52<00:02,  2.90it/s][A
Validating... (loss=1.87532):  95%|| 149/157 [00:52<00:02,  2.90it/s][A
Validating... (loss=1.87532):  96%|| 150/157 [00:52<00:02,  2.91it/s][A
Validating... (loss=1.76274):  96%|| 150/157 [00:52<00:02,  2.91it/s][A
Validating... (loss=1.76274):  96%|| 151/157 [00:52<00:02,  2.91it/s][A
Validating... (loss=2.04284):  96%|| 151/157 [00:53<00:02,  2.91it/s][A
Validating... (loss=2.04284):  97%|| 152/157 [00:53<00:01,  2.91it/s][A
Validating... (loss=2.12318):  97%|| 152/157 [00:53<00:01,  2.91it/s][A
Validating... (loss=2.12318):  97%|| 153/157 [00:53<00:01,  2.91it/s][A
Validating... (loss=1.82451):  97%|| 153/157 [00:53<00:01,  2.91it/s][A
Validating... (loss=1.82451):  98%|| 154/157 [00:53<00:01,  2.91it/s][A
Validating... (loss=1.94913):  98%|| 154/157 [00:54<00:01,  2.91it/s][A
Validating... (loss=1.94913):  99%|| 155/157 [00:54<00:00,  2.91it/s][A
Validating... (loss=1.91223):  99%|| 155/157 [00:54<00:00,  2.91it/s][A
Validating... (loss=1.91223):  99%|| 156/157 [00:54<00:00,  2.91it/s][A
Validating... (loss=1.88505):  99%|| 156/157 [00:54<00:00,  2.91it/s][A
Validating... (loss=1.88505): 100%|| 157/157 [00:54<00:00,  3.69it/s][AValidating... (loss=1.88505): 100%|| 157/157 [00:54<00:00,  2.87it/s]
09/24/2022 06:52:45 - INFO - __main__ - 

09/24/2022 06:52:45 - INFO - __main__ - Validation Results
09/24/2022 06:52:45 - INFO - __main__ - Global Steps: 200
09/24/2022 06:52:45 - INFO - __main__ - Valid Loss: 1.97824
09/24/2022 06:52:45 - INFO - __main__ - Valid Accuracy: 0.27220
Training (200 / 500 Steps) (loss=2.05859):  26%|| 200/782 [05:26<2:49:10, 17.44s/it]Training (201 / 500 Steps) (loss=2.13086):  26%|| 200/782 [05:27<2:49:10, 17.44s/it]Training (201 / 500 Steps) (loss=2.13086):  26%|| 201/782 [05:27<2:01:25, 12.54s/it]Training (202 / 500 Steps) (loss=1.94824):  26%|| 201/782 [05:28<2:01:25, 12.54s/it]Training (202 / 500 Steps) (loss=1.94824):  26%|| 202/782 [05:28<1:27:52,  9.09s/it]Training (203 / 500 Steps) (loss=2.12109):  26%|| 202/782 [05:29<1:27:52,  9.09s/it]Training (203 / 500 Steps) (loss=2.12109):  26%|| 203/782 [05:29<1:04:24,  6.67s/it]Training (204 / 500 Steps) (loss=2.02344):  26%|| 203/782 [05:30<1:04:24,  6.67s/it]Training (204 / 500 Steps) (loss=2.02344):  26%|| 204/782 [05:30<47:58,  4.98s/it]  Training (205 / 500 Steps) (loss=2.17383):  26%|| 204/782 [05:31<47:58,  4.98s/it]Training (205 / 500 Steps) (loss=2.17383):  26%|| 205/782 [05:31<36:29,  3.80s/it]Training (206 / 500 Steps) (loss=2.09180):  26%|| 205/782 [05:32<36:29,  3.80s/it]Training (206 / 500 Steps) (loss=2.09180):  26%|| 206/782 [05:32<28:27,  2.96s/it]Training (207 / 500 Steps) (loss=1.88379):  26%|| 206/782 [05:33<28:27,  2.96s/it]Training (207 / 500 Steps) (loss=1.88379):  26%|| 207/782 [05:33<22:51,  2.38s/it]Training (208 / 500 Steps) (loss=1.77246):  26%|| 207/782 [05:35<22:51,  2.38s/it]Training (208 / 500 Steps) (loss=1.77246):  27%|| 208/782 [05:35<18:56,  1.98s/it]Training (209 / 500 Steps) (loss=2.07031):  27%|| 208/782 [05:36<18:56,  1.98s/it]Training (209 / 500 Steps) (loss=2.07031):  27%|| 209/782 [05:36<16:11,  1.69s/it]Training (210 / 500 Steps) (loss=2.08008):  27%|| 209/782 [05:37<16:11,  1.69s/it]Training (210 / 500 Steps) (loss=2.08008):  27%|| 210/782 [05:37<14:15,  1.50s/it]Training (211 / 500 Steps) (loss=2.10742):  27%|| 210/782 [05:38<14:15,  1.50s/it]Training (211 / 500 Steps) (loss=2.10742):  27%|| 211/782 [05:38<12:54,  1.36s/it]Training (212 / 500 Steps) (loss=2.36719):  27%|| 211/782 [05:39<12:54,  1.36s/it]Training (212 / 500 Steps) (loss=2.36719):  27%|| 212/782 [05:39<11:57,  1.26s/it]Training (213 / 500 Steps) (loss=2.00000):  27%|| 212/782 [05:40<11:57,  1.26s/it]Training (213 / 500 Steps) (loss=2.00000):  27%|| 213/782 [05:40<11:17,  1.19s/it]Training (214 / 500 Steps) (loss=1.85156):  27%|| 213/782 [05:41<11:17,  1.19s/it]Training (214 / 500 Steps) (loss=1.85156):  27%|| 214/782 [05:41<10:50,  1.14s/it]Training (215 / 500 Steps) (loss=1.90527):  27%|| 214/782 [05:42<10:50,  1.14s/it]Training (215 / 500 Steps) (loss=1.90527):  27%|| 215/782 [05:42<10:30,  1.11s/it]Training (216 / 500 Steps) (loss=2.01172):  27%|| 215/782 [05:43<10:30,  1.11s/it]Training (216 / 500 Steps) (loss=2.01172):  28%|| 216/782 [05:43<10:15,  1.09s/it]Training (217 / 500 Steps) (loss=1.60156):  28%|| 216/782 [05:44<10:15,  1.09s/it]Training (217 / 500 Steps) (loss=1.60156):  28%|| 217/782 [05:44<10:04,  1.07s/it]Training (218 / 500 Steps) (loss=1.86914):  28%|| 217/782 [05:45<10:04,  1.07s/it]Training (218 / 500 Steps) (loss=1.86914):  28%|| 218/782 [05:45<09:57,  1.06s/it]Training (219 / 500 Steps) (loss=2.00391):  28%|| 218/782 [05:46<09:57,  1.06s/it]Training (219 / 500 Steps) (loss=2.00391):  28%|| 219/782 [05:46<09:52,  1.05s/it]Training (220 / 500 Steps) (loss=2.13086):  28%|| 219/782 [05:47<09:52,  1.05s/it]Training (220 / 500 Steps) (loss=2.13086):  28%|| 220/782 [05:47<09:48,  1.05s/it]Training (221 / 500 Steps) (loss=1.93945):  28%|| 220/782 [05:48<09:48,  1.05s/it]Training (221 / 500 Steps) (loss=1.93945):  28%|| 221/782 [05:48<09:44,  1.04s/it]Training (222 / 500 Steps) (loss=1.98047):  28%|| 221/782 [05:49<09:44,  1.04s/it]Training (222 / 500 Steps) (loss=1.98047):  28%|| 222/782 [05:49<09:41,  1.04s/it]Training (223 / 500 Steps) (loss=1.76172):  28%|| 222/782 [05:50<09:41,  1.04s/it]Training (223 / 500 Steps) (loss=1.76172):  29%|| 223/782 [05:50<09:38,  1.04s/it]Training (224 / 500 Steps) (loss=1.95996):  29%|| 223/782 [05:51<09:38,  1.04s/it]Training (224 / 500 Steps) (loss=1.95996):  29%|| 224/782 [05:51<09:36,  1.03s/it]Training (225 / 500 Steps) (loss=2.02344):  29%|| 224/782 [05:52<09:36,  1.03s/it]Training (225 / 500 Steps) (loss=2.02344):  29%|| 225/782 [05:52<09:35,  1.03s/it]Training (226 / 500 Steps) (loss=2.11133):  29%|| 225/782 [05:53<09:35,  1.03s/it]Training (226 / 500 Steps) (loss=2.11133):  29%|| 226/782 [05:53<09:33,  1.03s/it]Training (227 / 500 Steps) (loss=2.14062):  29%|| 226/782 [05:54<09:33,  1.03s/it]Training (227 / 500 Steps) (loss=2.14062):  29%|| 227/782 [05:54<09:32,  1.03s/it]Training (228 / 500 Steps) (loss=1.86816):  29%|| 227/782 [05:55<09:32,  1.03s/it]Training (228 / 500 Steps) (loss=1.86816):  29%|| 228/782 [05:55<09:30,  1.03s/it]Training (229 / 500 Steps) (loss=1.91699):  29%|| 228/782 [05:56<09:30,  1.03s/it]Training (229 / 500 Steps) (loss=1.91699):  29%|| 229/782 [05:56<09:30,  1.03s/it]Training (230 / 500 Steps) (loss=1.79102):  29%|| 229/782 [05:57<09:30,  1.03s/it]Training (230 / 500 Steps) (loss=1.79102):  29%|| 230/782 [05:57<09:28,  1.03s/it]Training (231 / 500 Steps) (loss=1.97266):  29%|| 230/782 [05:58<09:28,  1.03s/it]Training (231 / 500 Steps) (loss=1.97266):  30%|| 231/782 [05:58<09:27,  1.03s/it]Training (232 / 500 Steps) (loss=1.97266):  30%|| 231/782 [05:59<09:27,  1.03s/it]Training (232 / 500 Steps) (loss=1.97266):  30%|| 232/782 [05:59<09:26,  1.03s/it]Training (233 / 500 Steps) (loss=1.97656):  30%|| 232/782 [06:00<09:26,  1.03s/it]Training (233 / 500 Steps) (loss=1.97656):  30%|| 233/782 [06:00<09:25,  1.03s/it]Training (234 / 500 Steps) (loss=2.03125):  30%|| 233/782 [06:01<09:25,  1.03s/it]Training (234 / 500 Steps) (loss=2.03125):  30%|| 234/782 [06:01<09:24,  1.03s/it]Training (235 / 500 Steps) (loss=2.01953):  30%|| 234/782 [06:02<09:24,  1.03s/it]Training (235 / 500 Steps) (loss=2.01953):  30%|| 235/782 [06:02<09:22,  1.03s/it]Training (236 / 500 Steps) (loss=2.23633):  30%|| 235/782 [06:03<09:22,  1.03s/it]Training (236 / 500 Steps) (loss=2.23633):  30%|| 236/782 [06:03<09:21,  1.03s/it]Training (237 / 500 Steps) (loss=2.00781):  30%|| 236/782 [06:04<09:21,  1.03s/it]Training (237 / 500 Steps) (loss=2.00781):  30%|| 237/782 [06:04<09:21,  1.03s/it]Training (238 / 500 Steps) (loss=2.00195):  30%|| 237/782 [06:05<09:21,  1.03s/it]Training (238 / 500 Steps) (loss=2.00195):  30%|| 238/782 [06:05<09:20,  1.03s/it]Training (239 / 500 Steps) (loss=1.99414):  30%|| 238/782 [06:06<09:20,  1.03s/it]Training (239 / 500 Steps) (loss=1.99414):  31%|| 239/782 [06:06<09:19,  1.03s/it]Training (240 / 500 Steps) (loss=2.14258):  31%|| 239/782 [06:08<09:19,  1.03s/it]Training (240 / 500 Steps) (loss=2.14258):  31%|| 240/782 [06:08<09:18,  1.03s/it]Training (241 / 500 Steps) (loss=2.01758):  31%|| 240/782 [06:09<09:18,  1.03s/it]Training (241 / 500 Steps) (loss=2.01758):  31%|| 241/782 [06:09<09:19,  1.03s/it]Training (242 / 500 Steps) (loss=2.04883):  31%|| 241/782 [06:10<09:19,  1.03s/it]Training (242 / 500 Steps) (loss=2.04883):  31%|| 242/782 [06:10<09:18,  1.03s/it]Training (243 / 500 Steps) (loss=2.04492):  31%|| 242/782 [06:11<09:18,  1.03s/it]Training (243 / 500 Steps) (loss=2.04492):  31%|| 243/782 [06:11<09:16,  1.03s/it]Training (244 / 500 Steps) (loss=2.11914):  31%|| 243/782 [06:12<09:16,  1.03s/it]Training (244 / 500 Steps) (loss=2.11914):  31%|| 244/782 [06:12<09:15,  1.03s/it]Training (245 / 500 Steps) (loss=1.98438):  31%|| 244/782 [06:13<09:15,  1.03s/it]Training (245 / 500 Steps) (loss=1.98438):  31%|| 245/782 [06:13<09:14,  1.03s/it]Training (246 / 500 Steps) (loss=2.05664):  31%|| 245/782 [06:14<09:14,  1.03s/it]Training (246 / 500 Steps) (loss=2.05664):  31%|| 246/782 [06:14<09:12,  1.03s/it]Training (247 / 500 Steps) (loss=1.92578):  31%|| 246/782 [06:15<09:12,  1.03s/it]Training (247 / 500 Steps) (loss=1.92578):  32%|| 247/782 [06:15<09:10,  1.03s/it]Training (248 / 500 Steps) (loss=1.84180):  32%|| 247/782 [06:16<09:10,  1.03s/it]Training (248 / 500 Steps) (loss=1.84180):  32%|| 248/782 [06:16<09:09,  1.03s/it]Training (249 / 500 Steps) (loss=1.97266):  32%|| 248/782 [06:17<09:09,  1.03s/it]Training (249 / 500 Steps) (loss=1.97266):  32%|| 249/782 [06:17<09:09,  1.03s/it]Training (250 / 500 Steps) (loss=2.08984):  32%|| 249/782 [06:18<09:09,  1.03s/it]Training (250 / 500 Steps) (loss=2.08984):  32%|| 250/782 [06:18<09:07,  1.03s/it]Training (251 / 500 Steps) (loss=2.04883):  32%|| 250/782 [06:19<09:07,  1.03s/it]Training (251 / 500 Steps) (loss=2.04883):  32%|| 251/782 [06:19<09:06,  1.03s/it]Training (252 / 500 Steps) (loss=1.99219):  32%|| 251/782 [06:20<09:06,  1.03s/it]Training (252 / 500 Steps) (loss=1.99219):  32%|| 252/782 [06:20<09:05,  1.03s/it]Training (253 / 500 Steps) (loss=1.74609):  32%|| 252/782 [06:21<09:05,  1.03s/it]Training (253 / 500 Steps) (loss=1.74609):  32%|| 253/782 [06:21<09:03,  1.03s/it]Training (254 / 500 Steps) (loss=1.83398):  32%|| 253/782 [06:22<09:03,  1.03s/it]Training (254 / 500 Steps) (loss=1.83398):  32%|| 254/782 [06:22<09:03,  1.03s/it]Training (255 / 500 Steps) (loss=1.95215):  32%|| 254/782 [06:23<09:03,  1.03s/it]Training (255 / 500 Steps) (loss=1.95215):  33%|| 255/782 [06:23<09:02,  1.03s/it]Training (256 / 500 Steps) (loss=2.05469):  33%|| 255/782 [06:24<09:02,  1.03s/it]Training (256 / 500 Steps) (loss=2.05469):  33%|| 256/782 [06:24<09:01,  1.03s/it]Training (257 / 500 Steps) (loss=1.85156):  33%|| 256/782 [06:25<09:01,  1.03s/it]Training (257 / 500 Steps) (loss=1.85156):  33%|| 257/782 [06:25<08:59,  1.03s/it]Training (258 / 500 Steps) (loss=2.02344):  33%|| 257/782 [06:26<08:59,  1.03s/it]Training (258 / 500 Steps) (loss=2.02344):  33%|| 258/782 [06:26<08:58,  1.03s/it]Training (259 / 500 Steps) (loss=2.00781):  33%|| 258/782 [06:27<08:58,  1.03s/it]Training (259 / 500 Steps) (loss=2.00781):  33%|| 259/782 [06:27<08:57,  1.03s/it]Training (260 / 500 Steps) (loss=2.11914):  33%|| 259/782 [06:28<08:57,  1.03s/it]Training (260 / 500 Steps) (loss=2.11914):  33%|| 260/782 [06:28<08:56,  1.03s/it]Training (261 / 500 Steps) (loss=2.23438):  33%|| 260/782 [06:29<08:56,  1.03s/it]Training (261 / 500 Steps) (loss=2.23438):  33%|| 261/782 [06:29<08:55,  1.03s/it]Training (262 / 500 Steps) (loss=1.95605):  33%|| 261/782 [06:30<08:55,  1.03s/it]Training (262 / 500 Steps) (loss=1.95605):  34%|| 262/782 [06:30<08:54,  1.03s/it]Training (263 / 500 Steps) (loss=1.97168):  34%|| 262/782 [06:31<08:54,  1.03s/it]Training (263 / 500 Steps) (loss=1.97168):  34%|| 263/782 [06:31<08:53,  1.03s/it]Training (264 / 500 Steps) (loss=2.05664):  34%|| 263/782 [06:32<08:53,  1.03s/it]Training (264 / 500 Steps) (loss=2.05664):  34%|| 264/782 [06:32<08:52,  1.03s/it]Training (265 / 500 Steps) (loss=2.03711):  34%|| 264/782 [06:33<08:52,  1.03s/it]Training (265 / 500 Steps) (loss=2.03711):  34%|| 265/782 [06:33<08:51,  1.03s/it]Training (266 / 500 Steps) (loss=2.16211):  34%|| 265/782 [06:34<08:51,  1.03s/it]Training (266 / 500 Steps) (loss=2.16211):  34%|| 266/782 [06:34<08:50,  1.03s/it]Training (267 / 500 Steps) (loss=2.04297):  34%|| 266/782 [06:35<08:50,  1.03s/it]Training (267 / 500 Steps) (loss=2.04297):  34%|| 267/782 [06:35<08:49,  1.03s/it]Training (268 / 500 Steps) (loss=2.17188):  34%|| 267/782 [06:36<08:49,  1.03s/it]Training (268 / 500 Steps) (loss=2.17188):  34%|| 268/782 [06:36<08:48,  1.03s/it]Training (269 / 500 Steps) (loss=1.83496):  34%|| 268/782 [06:37<08:48,  1.03s/it]Training (269 / 500 Steps) (loss=1.83496):  34%|| 269/782 [06:37<08:47,  1.03s/it]Training (270 / 500 Steps) (loss=2.14258):  34%|| 269/782 [06:38<08:47,  1.03s/it]Training (270 / 500 Steps) (loss=2.14258):  35%|| 270/782 [06:38<08:46,  1.03s/it]Training (271 / 500 Steps) (loss=2.00586):  35%|| 270/782 [06:39<08:46,  1.03s/it]Training (271 / 500 Steps) (loss=2.00586):  35%|| 271/782 [06:39<08:45,  1.03s/it]Training (272 / 500 Steps) (loss=1.92578):  35%|| 271/782 [06:40<08:45,  1.03s/it]Training (272 / 500 Steps) (loss=1.92578):  35%|| 272/782 [06:40<08:43,  1.03s/it]Training (273 / 500 Steps) (loss=2.16992):  35%|| 272/782 [06:41<08:43,  1.03s/it]Training (273 / 500 Steps) (loss=2.16992):  35%|| 273/782 [06:41<08:42,  1.03s/it]Training (274 / 500 Steps) (loss=2.16016):  35%|| 273/782 [06:43<08:42,  1.03s/it]Training (274 / 500 Steps) (loss=2.16016):  35%|| 274/782 [06:43<08:42,  1.03s/it]Training (275 / 500 Steps) (loss=2.12695):  35%|| 274/782 [06:44<08:42,  1.03s/it]Training (275 / 500 Steps) (loss=2.12695):  35%|| 275/782 [06:44<08:41,  1.03s/it]Training (276 / 500 Steps) (loss=1.95605):  35%|| 275/782 [06:45<08:41,  1.03s/it]Training (276 / 500 Steps) (loss=1.95605):  35%|| 276/782 [06:45<08:39,  1.03s/it]Training (277 / 500 Steps) (loss=1.92676):  35%|| 276/782 [06:46<08:39,  1.03s/it]Training (277 / 500 Steps) (loss=1.92676):  35%|| 277/782 [06:46<08:38,  1.03s/it]Training (278 / 500 Steps) (loss=2.08008):  35%|| 277/782 [06:47<08:38,  1.03s/it]Training (278 / 500 Steps) (loss=2.08008):  36%|| 278/782 [06:47<08:37,  1.03s/it]Training (279 / 500 Steps) (loss=2.03320):  36%|| 278/782 [06:48<08:37,  1.03s/it]Training (279 / 500 Steps) (loss=2.03320):  36%|| 279/782 [06:48<08:36,  1.03s/it]Training (280 / 500 Steps) (loss=1.98926):  36%|| 279/782 [06:49<08:36,  1.03s/it]Training (280 / 500 Steps) (loss=1.98926):  36%|| 280/782 [06:49<08:34,  1.03s/it]Training (281 / 500 Steps) (loss=1.95117):  36%|| 280/782 [06:50<08:34,  1.03s/it]Training (281 / 500 Steps) (loss=1.95117):  36%|| 281/782 [06:50<08:34,  1.03s/it]Training (282 / 500 Steps) (loss=1.89941):  36%|| 281/782 [06:51<08:34,  1.03s/it]Training (282 / 500 Steps) (loss=1.89941):  36%|| 282/782 [06:51<08:35,  1.03s/it]Training (283 / 500 Steps) (loss=1.81348):  36%|| 282/782 [06:52<08:35,  1.03s/it]Training (283 / 500 Steps) (loss=1.81348):  36%|| 283/782 [06:52<08:35,  1.03s/it]Training (284 / 500 Steps) (loss=1.94727):  36%|| 283/782 [06:53<08:35,  1.03s/it]Training (284 / 500 Steps) (loss=1.94727):  36%|| 284/782 [06:53<08:34,  1.03s/it]Training (285 / 500 Steps) (loss=1.90820):  36%|| 284/782 [06:54<08:34,  1.03s/it]Training (285 / 500 Steps) (loss=1.90820):  36%|| 285/782 [06:54<08:33,  1.03s/it]Training (286 / 500 Steps) (loss=1.90918):  36%|| 285/782 [06:55<08:33,  1.03s/it]Training (286 / 500 Steps) (loss=1.90918):  37%|| 286/782 [06:55<08:33,  1.04s/it]Training (287 / 500 Steps) (loss=1.87305):  37%|| 286/782 [06:56<08:33,  1.04s/it]Training (287 / 500 Steps) (loss=1.87305):  37%|| 287/782 [06:56<08:32,  1.04s/it]Training (288 / 500 Steps) (loss=1.86914):  37%|| 287/782 [06:57<08:32,  1.04s/it]Training (288 / 500 Steps) (loss=1.86914):  37%|| 288/782 [06:57<08:30,  1.03s/it]Training (289 / 500 Steps) (loss=1.89160):  37%|| 288/782 [06:58<08:30,  1.03s/it]Training (289 / 500 Steps) (loss=1.89160):  37%|| 289/782 [06:58<08:30,  1.04s/it]Training (290 / 500 Steps) (loss=2.11719):  37%|| 289/782 [06:59<08:30,  1.04s/it]Training (290 / 500 Steps) (loss=2.11719):  37%|| 290/782 [06:59<08:30,  1.04s/it]Training (291 / 500 Steps) (loss=1.94824):  37%|| 290/782 [07:00<08:30,  1.04s/it]Training (291 / 500 Steps) (loss=1.94824):  37%|| 291/782 [07:00<08:28,  1.04s/it]Training (292 / 500 Steps) (loss=2.19141):  37%|| 291/782 [07:01<08:28,  1.04s/it]Training (292 / 500 Steps) (loss=2.19141):  37%|| 292/782 [07:01<08:27,  1.03s/it]Training (293 / 500 Steps) (loss=1.90625):  37%|| 292/782 [07:02<08:27,  1.03s/it]Training (293 / 500 Steps) (loss=1.90625):  37%|| 293/782 [07:02<08:25,  1.03s/it]Training (294 / 500 Steps) (loss=1.98242):  37%|| 293/782 [07:03<08:25,  1.03s/it]Training (294 / 500 Steps) (loss=1.98242):  38%|| 294/782 [07:03<08:23,  1.03s/it]Training (295 / 500 Steps) (loss=1.96191):  38%|| 294/782 [07:04<08:23,  1.03s/it]Training (295 / 500 Steps) (loss=1.96191):  38%|| 295/782 [07:04<08:23,  1.03s/it]Training (296 / 500 Steps) (loss=1.82227):  38%|| 295/782 [07:05<08:23,  1.03s/it]Training (296 / 500 Steps) (loss=1.82227):  38%|| 296/782 [07:05<08:24,  1.04s/it]Training (297 / 500 Steps) (loss=2.00000):  38%|| 296/782 [07:06<08:24,  1.04s/it]Training (297 / 500 Steps) (loss=2.00000):  38%|| 297/782 [07:06<08:21,  1.03s/it]Training (298 / 500 Steps) (loss=2.00781):  38%|| 297/782 [07:07<08:21,  1.03s/it]Training (298 / 500 Steps) (loss=2.00781):  38%|| 298/782 [07:07<08:20,  1.03s/it]Training (299 / 500 Steps) (loss=1.96973):  38%|| 298/782 [07:08<08:20,  1.03s/it]Training (299 / 500 Steps) (loss=1.96973):  38%|| 299/782 [07:08<08:18,  1.03s/it]Training (300 / 500 Steps) (loss=1.97168):  38%|| 299/782 [07:09<08:18,  1.03s/it]09/24/2022 06:54:28 - INFO - __main__ - ***** Running Validation *****
09/24/2022 06:54:28 - INFO - __main__ -   Num steps = 157
09/24/2022 06:54:28 - INFO - __main__ -   Batch size = 64

Validating... (loss=X.X):   0%|| 0/157 [00:00<?, ?it/s][A
Validating... (loss=1.75419):   0%|| 0/157 [00:01<?, ?it/s][A
Validating... (loss=1.75419):   1%|| 1/157 [00:01<02:39,  1.02s/it][A
Validating... (loss=1.95456):   1%|| 1/157 [00:01<02:39,  1.02s/it][A
Validating... (loss=1.95456):   1%|| 2/157 [00:01<01:36,  1.60it/s][A
Validating... (loss=1.90622):   1%|| 2/157 [00:01<01:36,  1.60it/s][A
Validating... (loss=1.90622):   2%|| 3/157 [00:01<01:16,  2.02it/s][A
Validating... (loss=1.91759):   2%|| 3/157 [00:02<01:16,  2.02it/s][A
Validating... (loss=1.91759):   3%|| 4/157 [00:02<01:06,  2.30it/s][A
Validating... (loss=1.81581):   3%|| 4/157 [00:02<01:06,  2.30it/s][A
Validating... (loss=1.81581):   3%|| 5/157 [00:02<01:01,  2.48it/s][A
Validating... (loss=2.08523):   3%|| 5/157 [00:02<01:01,  2.48it/s][A
Validating... (loss=2.08523):   4%|| 6/157 [00:02<00:57,  2.61it/s][A
Validating... (loss=1.92783):   4%|| 6/157 [00:03<00:57,  2.61it/s][A
Validating... (loss=1.92783):   4%|| 7/157 [00:03<00:55,  2.70it/s][A
Validating... (loss=1.83374):   4%|| 7/157 [00:03<00:55,  2.70it/s][A
Validating... (loss=1.83374):   5%|| 8/157 [00:03<00:53,  2.77it/s][A
Validating... (loss=1.77534):   5%|| 8/157 [00:03<00:53,  2.77it/s][A
Validating... (loss=1.77534):   6%|| 9/157 [00:03<00:52,  2.81it/s][A
Validating... (loss=1.82280):   6%|| 9/157 [00:04<00:52,  2.81it/s][A
Validating... (loss=1.82280):   6%|| 10/157 [00:04<00:51,  2.84it/s][A
Validating... (loss=2.14840):   6%|| 10/157 [00:04<00:51,  2.84it/s][A
Validating... (loss=2.14840):   7%|| 11/157 [00:04<00:50,  2.86it/s][A
Validating... (loss=2.11280):   7%|| 11/157 [00:04<00:50,  2.86it/s][A
Validating... (loss=2.11280):   8%|| 12/157 [00:04<00:50,  2.88it/s][A
Validating... (loss=1.97495):   8%|| 12/157 [00:05<00:50,  2.88it/s][A
Validating... (loss=1.97495):   8%|| 13/157 [00:05<00:49,  2.89it/s][A
Validating... (loss=1.70503):   8%|| 13/157 [00:05<00:49,  2.89it/s][A
Validating... (loss=1.70503):   9%|| 14/157 [00:05<00:49,  2.90it/s][A
Validating... (loss=1.87132):   9%|| 14/157 [00:05<00:49,  2.90it/s][A
Validating... (loss=1.87132):  10%|| 15/157 [00:05<00:48,  2.90it/s][A
Validating... (loss=2.00838):  10%|| 15/157 [00:06<00:48,  2.90it/s][A
Validating... (loss=2.00838):  10%|| 16/157 [00:06<00:48,  2.91it/s][A
Validating... (loss=1.97773):  10%|| 16/157 [00:06<00:48,  2.91it/s][A
Validating... (loss=1.97773):  11%|| 17/157 [00:06<00:48,  2.91it/s][A
Validating... (loss=2.01590):  11%|| 17/157 [00:06<00:48,  2.91it/s][A
Validating... (loss=2.01590):  11%|| 18/157 [00:06<00:47,  2.91it/s][A
Validating... (loss=2.03480):  11%|| 18/157 [00:07<00:47,  2.91it/s][A
Validating... (loss=2.03480):  12%|| 19/157 [00:07<00:47,  2.90it/s][A
Validating... (loss=2.00357):  12%|| 19/157 [00:07<00:47,  2.90it/s][A
Validating... (loss=2.00357):  13%|| 20/157 [00:07<00:47,  2.90it/s][A
Validating... (loss=1.89858):  13%|| 20/157 [00:07<00:47,  2.90it/s][A
Validating... (loss=1.89858):  13%|| 21/157 [00:07<00:46,  2.90it/s][A
Validating... (loss=1.77636):  13%|| 21/157 [00:08<00:46,  2.90it/s][A
Validating... (loss=1.77636):  14%|| 22/157 [00:08<00:46,  2.91it/s][A
Validating... (loss=1.88744):  14%|| 22/157 [00:08<00:46,  2.91it/s][A
Validating... (loss=1.88744):  15%|| 23/157 [00:08<00:46,  2.91it/s][A
Validating... (loss=1.94018):  15%|| 23/157 [00:08<00:46,  2.91it/s][A
Validating... (loss=1.94018):  15%|| 24/157 [00:08<00:45,  2.91it/s][A
Validating... (loss=1.84772):  15%|| 24/157 [00:09<00:45,  2.91it/s][A
Validating... (loss=1.84772):  16%|| 25/157 [00:09<00:45,  2.91it/s][A
Validating... (loss=1.93455):  16%|| 25/157 [00:09<00:45,  2.91it/s][A
Validating... (loss=1.93455):  17%|| 26/157 [00:09<00:45,  2.91it/s][A
Validating... (loss=1.81208):  17%|| 26/157 [00:09<00:45,  2.91it/s][A
Validating... (loss=1.81208):  17%|| 27/157 [00:09<00:44,  2.90it/s][A
Validating... (loss=1.75498):  17%|| 27/157 [00:10<00:44,  2.90it/s][A
Validating... (loss=1.75498):  18%|| 28/157 [00:10<00:44,  2.90it/s][A
Validating... (loss=1.91259):  18%|| 28/157 [00:10<00:44,  2.90it/s][A
Validating... (loss=1.91259):  18%|| 29/157 [00:10<00:44,  2.90it/s][A
Validating... (loss=1.94830):  18%|| 29/157 [00:10<00:44,  2.90it/s][A
Validating... (loss=1.94830):  19%|| 30/157 [00:10<00:43,  2.90it/s][A
Validating... (loss=1.91732):  19%|| 30/157 [00:11<00:43,  2.90it/s][A
Validating... (loss=1.91732):  20%|| 31/157 [00:11<00:43,  2.90it/s][A
Validating... (loss=1.76975):  20%|| 31/157 [00:11<00:43,  2.90it/s][A
Validating... (loss=1.76975):  20%|| 32/157 [00:11<00:43,  2.90it/s][A
Validating... (loss=1.85126):  20%|| 32/157 [00:12<00:43,  2.90it/s][A
Validating... (loss=1.85126):  21%|| 33/157 [00:12<00:42,  2.90it/s][A
Validating... (loss=1.78057):  21%|| 33/157 [00:12<00:42,  2.90it/s][A
Validating... (loss=1.78057):  22%|| 34/157 [00:12<00:42,  2.89it/s][A
Validating... (loss=1.85155):  22%|| 34/157 [00:12<00:42,  2.89it/s][A
Validating... (loss=1.85155):  22%|| 35/157 [00:12<00:42,  2.89it/s][A
Validating... (loss=1.93063):  22%|| 35/157 [00:13<00:42,  2.89it/s][A
Validating... (loss=1.93063):  23%|| 36/157 [00:13<00:41,  2.90it/s][A
Validating... (loss=1.87595):  23%|| 36/157 [00:13<00:41,  2.90it/s][A
Validating... (loss=1.87595):  24%|| 37/157 [00:13<00:41,  2.90it/s][A
Validating... (loss=1.88171):  24%|| 37/157 [00:13<00:41,  2.90it/s][A
Validating... (loss=1.88171):  24%|| 38/157 [00:13<00:40,  2.91it/s][A
Validating... (loss=1.72134):  24%|| 38/157 [00:14<00:40,  2.91it/s][A
Validating... (loss=1.72134):  25%|| 39/157 [00:14<00:40,  2.91it/s][A
Validating... (loss=2.11688):  25%|| 39/157 [00:14<00:40,  2.91it/s][A
Validating... (loss=2.11688):  25%|| 40/157 [00:14<00:40,  2.91it/s][A
Validating... (loss=1.94539):  25%|| 40/157 [00:14<00:40,  2.91it/s][A
Validating... (loss=1.94539):  26%|| 41/157 [00:14<00:39,  2.91it/s][A
Validating... (loss=1.95226):  26%|| 41/157 [00:15<00:39,  2.91it/s][A
Validating... (loss=1.95226):  27%|| 42/157 [00:15<00:39,  2.91it/s][A
Validating... (loss=1.79806):  27%|| 42/157 [00:15<00:39,  2.91it/s][A
Validating... (loss=1.79806):  27%|| 43/157 [00:15<00:39,  2.91it/s][A
Validating... (loss=1.90934):  27%|| 43/157 [00:15<00:39,  2.91it/s][A
Validating... (loss=1.90934):  28%|| 44/157 [00:15<00:38,  2.91it/s][A
Validating... (loss=1.91636):  28%|| 44/157 [00:16<00:38,  2.91it/s][A
Validating... (loss=1.91636):  29%|| 45/157 [00:16<00:38,  2.91it/s][A
Validating... (loss=1.91273):  29%|| 45/157 [00:16<00:38,  2.91it/s][A
Validating... (loss=1.91273):  29%|| 46/157 [00:16<00:38,  2.90it/s][A
Validating... (loss=1.71043):  29%|| 46/157 [00:16<00:38,  2.90it/s][A
Validating... (loss=1.71043):  30%|| 47/157 [00:16<00:37,  2.90it/s][A
Validating... (loss=2.00442):  30%|| 47/157 [00:17<00:37,  2.90it/s][A
Validating... (loss=2.00442):  31%|| 48/157 [00:17<00:37,  2.89it/s][A
Validating... (loss=1.95268):  31%|| 48/157 [00:17<00:37,  2.89it/s][A
Validating... (loss=1.95268):  31%|| 49/157 [00:17<00:37,  2.89it/s][A
Validating... (loss=1.85023):  31%|| 49/157 [00:17<00:37,  2.89it/s][A
Validating... (loss=1.85023):  32%|| 50/157 [00:17<00:37,  2.89it/s][A
Validating... (loss=2.02542):  32%|| 50/157 [00:18<00:37,  2.89it/s][A
Validating... (loss=2.02542):  32%|| 51/157 [00:18<00:36,  2.90it/s][A
Validating... (loss=1.77107):  32%|| 51/157 [00:18<00:36,  2.90it/s][A
Validating... (loss=1.77107):  33%|| 52/157 [00:18<00:36,  2.90it/s][A
Validating... (loss=1.87803):  33%|| 52/157 [00:18<00:36,  2.90it/s][A
Validating... (loss=1.87803):  34%|| 53/157 [00:18<00:35,  2.90it/s][A
Validating... (loss=1.97272):  34%|| 53/157 [00:19<00:35,  2.90it/s][A
Validating... (loss=1.97272):  34%|| 54/157 [00:19<00:35,  2.90it/s][A
Validating... (loss=1.90415):  34%|| 54/157 [00:19<00:35,  2.90it/s][A
Validating... (loss=1.90415):  35%|| 55/157 [00:19<00:35,  2.91it/s][A
Validating... (loss=1.82313):  35%|| 55/157 [00:19<00:35,  2.91it/s][A
Validating... (loss=1.82313):  36%|| 56/157 [00:19<00:34,  2.91it/s][A
Validating... (loss=2.01427):  36%|| 56/157 [00:20<00:34,  2.91it/s][A
Validating... (loss=2.01427):  36%|| 57/157 [00:20<00:34,  2.91it/s][A
Validating... (loss=1.85425):  36%|| 57/157 [00:20<00:34,  2.91it/s][A
Validating... (loss=1.85425):  37%|| 58/157 [00:20<00:33,  2.91it/s][A
Validating... (loss=1.80134):  37%|| 58/157 [00:20<00:33,  2.91it/s][A
Validating... (loss=1.80134):  38%|| 59/157 [00:20<00:33,  2.91it/s][A
Validating... (loss=1.81483):  38%|| 59/157 [00:21<00:33,  2.91it/s][A
Validating... (loss=1.81483):  38%|| 60/157 [00:21<00:33,  2.91it/s][A
Validating... (loss=1.88954):  38%|| 60/157 [00:21<00:33,  2.91it/s][A
Validating... (loss=1.88954):  39%|| 61/157 [00:21<00:32,  2.91it/s][A
Validating... (loss=1.84633):  39%|| 61/157 [00:22<00:32,  2.91it/s][A
Validating... (loss=1.84633):  39%|| 62/157 [00:22<00:32,  2.91it/s][A
Validating... (loss=2.01446):  39%|| 62/157 [00:22<00:32,  2.91it/s][A
Validating... (loss=2.01446):  40%|| 63/157 [00:22<00:32,  2.91it/s][A
Validating... (loss=1.89406):  40%|| 63/157 [00:22<00:32,  2.91it/s][A
Validating... (loss=1.89406):  41%|| 64/157 [00:22<00:31,  2.91it/s][A
Validating... (loss=1.99984):  41%|| 64/157 [00:23<00:31,  2.91it/s][A
Validating... (loss=1.99984):  41%|| 65/157 [00:23<00:31,  2.91it/s][A
Validating... (loss=1.98137):  41%|| 65/157 [00:23<00:31,  2.91it/s][A
Validating... (loss=1.98137):  42%|| 66/157 [00:23<00:31,  2.91it/s][A
Validating... (loss=1.86521):  42%|| 66/157 [00:23<00:31,  2.91it/s][A
Validating... (loss=1.86521):  43%|| 67/157 [00:23<00:30,  2.91it/s][A
Validating... (loss=1.96903):  43%|| 67/157 [00:24<00:30,  2.91it/s][A
Validating... (loss=1.96903):  43%|| 68/157 [00:24<00:30,  2.91it/s][A
Validating... (loss=1.75949):  43%|| 68/157 [00:24<00:30,  2.91it/s][A
Validating... (loss=1.75949):  44%|| 69/157 [00:24<00:30,  2.91it/s][A
Validating... (loss=1.77652):  44%|| 69/157 [00:24<00:30,  2.91it/s][A
Validating... (loss=1.77652):  45%|| 70/157 [00:24<00:29,  2.91it/s][A
Validating... (loss=1.92822):  45%|| 70/157 [00:25<00:29,  2.91it/s][A
Validating... (loss=1.92822):  45%|| 71/157 [00:25<00:29,  2.91it/s][A
Validating... (loss=1.93228):  45%|| 71/157 [00:25<00:29,  2.91it/s][A
Validating... (loss=1.93228):  46%|| 72/157 [00:25<00:29,  2.92it/s][A
Validating... (loss=1.89473):  46%|| 72/157 [00:25<00:29,  2.92it/s][A
Validating... (loss=1.89473):  46%|| 73/157 [00:25<00:28,  2.92it/s][A
Validating... (loss=1.87235):  46%|| 73/157 [00:26<00:28,  2.92it/s][A
Validating... (loss=1.87235):  47%|| 74/157 [00:26<00:28,  2.91it/s][A
Validating... (loss=2.10677):  47%|| 74/157 [00:26<00:28,  2.91it/s][A
Validating... (loss=2.10677):  48%|| 75/157 [00:26<00:28,  2.91it/s][A
Validating... (loss=1.71020):  48%|| 75/157 [00:26<00:28,  2.91it/s][A
Validating... (loss=1.71020):  48%|| 76/157 [00:26<00:27,  2.91it/s][A
Validating... (loss=1.83701):  48%|| 76/157 [00:27<00:27,  2.91it/s][A
Validating... (loss=1.83701):  49%|| 77/157 [00:27<00:27,  2.91it/s][A
Validating... (loss=1.78251):  49%|| 77/157 [00:27<00:27,  2.91it/s][A
Validating... (loss=1.78251):  50%|| 78/157 [00:27<00:27,  2.91it/s][A
Validating... (loss=1.87617):  50%|| 78/157 [00:27<00:27,  2.91it/s][A
Validating... (loss=1.87617):  50%|| 79/157 [00:27<00:26,  2.91it/s][A
Validating... (loss=1.79488):  50%|| 79/157 [00:28<00:26,  2.91it/s][A
Validating... (loss=1.79488):  51%|| 80/157 [00:28<00:26,  2.91it/s][A
Validating... (loss=1.87167):  51%|| 80/157 [00:28<00:26,  2.91it/s][A
Validating... (loss=1.87167):  52%|| 81/157 [00:28<00:26,  2.92it/s][A
Validating... (loss=2.08259):  52%|| 81/157 [00:28<00:26,  2.92it/s][A
Validating... (loss=2.08259):  52%|| 82/157 [00:28<00:25,  2.91it/s][A
Validating... (loss=1.81191):  52%|| 82/157 [00:29<00:25,  2.91it/s][A
Validating... (loss=1.81191):  53%|| 83/157 [00:29<00:25,  2.91it/s][A
Validating... (loss=2.12171):  53%|| 83/157 [00:29<00:25,  2.91it/s][A
Validating... (loss=2.12171):  54%|| 84/157 [00:29<00:25,  2.92it/s][A
Validating... (loss=2.10440):  54%|| 84/157 [00:29<00:25,  2.92it/s][A
Validating... (loss=2.10440):  54%|| 85/157 [00:29<00:24,  2.92it/s][A
Validating... (loss=1.91585):  54%|| 85/157 [00:30<00:24,  2.92it/s][A
Validating... (loss=1.91585):  55%|| 86/157 [00:30<00:24,  2.91it/s][A
Validating... (loss=2.06980):  55%|| 86/157 [00:30<00:24,  2.91it/s][A
Validating... (loss=2.06980):  55%|| 87/157 [00:30<00:24,  2.91it/s][A
Validating... (loss=2.08318):  55%|| 87/157 [00:30<00:24,  2.91it/s][A
Validating... (loss=2.08318):  56%|| 88/157 [00:30<00:23,  2.91it/s][A
Validating... (loss=1.89622):  56%|| 88/157 [00:31<00:23,  2.91it/s][A
Validating... (loss=1.89622):  57%|| 89/157 [00:31<00:23,  2.91it/s][A
Validating... (loss=1.66572):  57%|| 89/157 [00:31<00:23,  2.91it/s][A
Validating... (loss=1.66572):  57%|| 90/157 [00:31<00:22,  2.91it/s][A
Validating... (loss=1.81800):  57%|| 90/157 [00:31<00:22,  2.91it/s][A
Validating... (loss=1.81800):  58%|| 91/157 [00:31<00:22,  2.91it/s][A
Validating... (loss=1.85276):  58%|| 91/157 [00:32<00:22,  2.91it/s][A
Validating... (loss=1.85276):  59%|| 92/157 [00:32<00:22,  2.89it/s][A
Validating... (loss=1.89560):  59%|| 92/157 [00:32<00:22,  2.89it/s][A
Validating... (loss=1.89560):  59%|| 93/157 [00:32<00:22,  2.89it/s][A
Validating... (loss=1.96755):  59%|| 93/157 [00:33<00:22,  2.89it/s][A
Validating... (loss=1.96755):  60%|| 94/157 [00:33<00:21,  2.89it/s][A
Validating... (loss=1.84405):  60%|| 94/157 [00:33<00:21,  2.89it/s][A
Validating... (loss=1.84405):  61%|| 95/157 [00:33<00:21,  2.90it/s][A
Validating... (loss=1.97046):  61%|| 95/157 [00:33<00:21,  2.90it/s][A
Validating... (loss=1.97046):  61%|| 96/157 [00:33<00:21,  2.90it/s][A
Validating... (loss=1.86729):  61%|| 96/157 [00:34<00:21,  2.90it/s][A
Validating... (loss=1.86729):  62%|| 97/157 [00:34<00:20,  2.90it/s][A
Validating... (loss=1.77988):  62%|| 97/157 [00:34<00:20,  2.90it/s][A
Validating... (loss=1.77988):  62%|| 98/157 [00:34<00:20,  2.91it/s][A
Validating... (loss=1.77483):  62%|| 98/157 [00:34<00:20,  2.91it/s][A
Validating... (loss=1.77483):  63%|| 99/157 [00:34<00:19,  2.91it/s][A
Validating... (loss=1.82480):  63%|| 99/157 [00:35<00:19,  2.91it/s][A
Validating... (loss=1.82480):  64%|| 100/157 [00:35<00:19,  2.91it/s][A
Validating... (loss=2.01691):  64%|| 100/157 [00:35<00:19,  2.91it/s][A
Validating... (loss=2.01691):  64%|| 101/157 [00:35<00:19,  2.91it/s][A
Validating... (loss=1.94902):  64%|| 101/157 [00:35<00:19,  2.91it/s][A
Validating... (loss=1.94902):  65%|| 102/157 [00:35<00:18,  2.91it/s][A
Validating... (loss=2.03196):  65%|| 102/157 [00:36<00:18,  2.91it/s][A
Validating... (loss=2.03196):  66%|| 103/157 [00:36<00:18,  2.91it/s][A
Validating... (loss=1.93459):  66%|| 103/157 [00:36<00:18,  2.91it/s][A
Validating... (loss=1.93459):  66%|| 104/157 [00:36<00:18,  2.91it/s][A
Validating... (loss=1.91765):  66%|| 104/157 [00:36<00:18,  2.91it/s][A
Validating... (loss=1.91765):  67%|| 105/157 [00:36<00:17,  2.91it/s][A
Validating... (loss=1.86899):  67%|| 105/157 [00:37<00:17,  2.91it/s][A
Validating... (loss=1.86899):  68%|| 106/157 [00:37<00:17,  2.90it/s][A
Validating... (loss=1.92831):  68%|| 106/157 [00:37<00:17,  2.90it/s][A
Validating... (loss=1.92831):  68%|| 107/157 [00:37<00:17,  2.90it/s][A
Validating... (loss=1.82702):  68%|| 107/157 [00:37<00:17,  2.90it/s][A
Validating... (loss=1.82702):  69%|| 108/157 [00:37<00:16,  2.91it/s][A
Validating... (loss=1.99463):  69%|| 108/157 [00:38<00:16,  2.91it/s][A
Validating... (loss=1.99463):  69%|| 109/157 [00:38<00:16,  2.91it/s][A
Validating... (loss=2.08313):  69%|| 109/157 [00:38<00:16,  2.91it/s][A
Validating... (loss=2.08313):  70%|| 110/157 [00:38<00:16,  2.91it/s][A
Validating... (loss=1.88743):  70%|| 110/157 [00:38<00:16,  2.91it/s][A
Validating... (loss=1.88743):  71%|| 111/157 [00:38<00:15,  2.91it/s][A
Validating... (loss=1.76587):  71%|| 111/157 [00:39<00:15,  2.91it/s][A
Validating... (loss=1.76587):  71%|| 112/157 [00:39<00:15,  2.91it/s][A
Validating... (loss=1.93110):  71%|| 112/157 [00:39<00:15,  2.91it/s][A
Validating... (loss=1.93110):  72%|| 113/157 [00:39<00:15,  2.91it/s][A
Validating... (loss=1.71424):  72%|| 113/157 [00:39<00:15,  2.91it/s][A
Validating... (loss=1.71424):  73%|| 114/157 [00:39<00:14,  2.91it/s][A
Validating... (loss=1.85732):  73%|| 114/157 [00:40<00:14,  2.91it/s][A
Validating... (loss=1.85732):  73%|| 115/157 [00:40<00:14,  2.91it/s][A
Validating... (loss=1.97051):  73%|| 115/157 [00:40<00:14,  2.91it/s][A
Validating... (loss=1.97051):  74%|| 116/157 [00:40<00:14,  2.91it/s][A
Validating... (loss=1.82475):  74%|| 116/157 [00:40<00:14,  2.91it/s][A
Validating... (loss=1.82475):  75%|| 117/157 [00:40<00:13,  2.91it/s][A
Validating... (loss=1.86762):  75%|| 117/157 [00:41<00:13,  2.91it/s][A
Validating... (loss=1.86762):  75%|| 118/157 [00:41<00:13,  2.90it/s][A
Validating... (loss=1.85387):  75%|| 118/157 [00:41<00:13,  2.90it/s][A
Validating... (loss=1.85387):  76%|| 119/157 [00:41<00:13,  2.91it/s][A
Validating... (loss=1.89660):  76%|| 119/157 [00:41<00:13,  2.91it/s][A
Validating... (loss=1.89660):  76%|| 120/157 [00:41<00:12,  2.91it/s][A
Validating... (loss=1.67533):  76%|| 120/157 [00:42<00:12,  2.91it/s][A
Validating... (loss=1.67533):  77%|| 121/157 [00:42<00:12,  2.90it/s][A
Validating... (loss=1.80263):  77%|| 121/157 [00:42<00:12,  2.90it/s][A
Validating... (loss=1.80263):  78%|| 122/157 [00:42<00:12,  2.90it/s][A
Validating... (loss=1.99992):  78%|| 122/157 [00:42<00:12,  2.90it/s][A
Validating... (loss=1.99992):  78%|| 123/157 [00:42<00:11,  2.90it/s][A
Validating... (loss=1.83814):  78%|| 123/157 [00:43<00:11,  2.90it/s][A
Validating... (loss=1.83814):  79%|| 124/157 [00:43<00:11,  2.90it/s][A
Validating... (loss=2.11283):  79%|| 124/157 [00:43<00:11,  2.90it/s][A
Validating... (loss=2.11283):  80%|| 125/157 [00:43<00:11,  2.90it/s][A
Validating... (loss=1.87697):  80%|| 125/157 [00:44<00:11,  2.90it/s][A
Validating... (loss=1.87697):  80%|| 126/157 [00:44<00:10,  2.90it/s][A
Validating... (loss=1.96271):  80%|| 126/157 [00:44<00:10,  2.90it/s][A
Validating... (loss=1.96271):  81%|| 127/157 [00:44<00:10,  2.90it/s][A
Validating... (loss=2.03559):  81%|| 127/157 [00:44<00:10,  2.90it/s][A
Validating... (loss=2.03559):  82%|| 128/157 [00:44<00:09,  2.90it/s][A
Validating... (loss=1.99138):  82%|| 128/157 [00:45<00:09,  2.90it/s][A
Validating... (loss=1.99138):  82%|| 129/157 [00:45<00:09,  2.90it/s][A
Validating... (loss=2.09570):  82%|| 129/157 [00:45<00:09,  2.90it/s][A
Validating... (loss=2.09570):  83%|| 130/157 [00:45<00:09,  2.91it/s][A
Validating... (loss=2.01647):  83%|| 130/157 [00:45<00:09,  2.91it/s][A
Validating... (loss=2.01647):  83%|| 131/157 [00:45<00:08,  2.91it/s][A
Validating... (loss=1.94035):  83%|| 131/157 [00:46<00:08,  2.91it/s][A
Validating... (loss=1.94035):  84%|| 132/157 [00:46<00:08,  2.91it/s][A
Validating... (loss=1.87808):  84%|| 132/157 [00:46<00:08,  2.91it/s][A
Validating... (loss=1.87808):  85%|| 133/157 [00:46<00:08,  2.91it/s][A
Validating... (loss=2.06228):  85%|| 133/157 [00:46<00:08,  2.91it/s][A
Validating... (loss=2.06228):  85%|| 134/157 [00:46<00:07,  2.91it/s][A
Validating... (loss=1.99248):  85%|| 134/157 [00:47<00:07,  2.91it/s][A
Validating... (loss=1.99248):  86%|| 135/157 [00:47<00:07,  2.91it/s][A
Validating... (loss=2.00434):  86%|| 135/157 [00:47<00:07,  2.91it/s][A
Validating... (loss=2.00434):  87%|| 136/157 [00:47<00:07,  2.91it/s][A
Validating... (loss=1.86624):  87%|| 136/157 [00:47<00:07,  2.91it/s][A
Validating... (loss=1.86624):  87%|| 137/157 [00:47<00:06,  2.91it/s][A
Validating... (loss=1.93323):  87%|| 137/157 [00:48<00:06,  2.91it/s][A
Validating... (loss=1.93323):  88%|| 138/157 [00:48<00:06,  2.91it/s][A
Validating... (loss=1.96405):  88%|| 138/157 [00:48<00:06,  2.91it/s][A
Validating... (loss=1.96405):  89%|| 139/157 [00:48<00:06,  2.91it/s][A
Validating... (loss=1.76394):  89%|| 139/157 [00:48<00:06,  2.91it/s][A
Validating... (loss=1.76394):  89%|| 140/157 [00:48<00:05,  2.91it/s][A
Validating... (loss=1.91796):  89%|| 140/157 [00:49<00:05,  2.91it/s][A
Validating... (loss=1.91796):  90%|| 141/157 [00:49<00:05,  2.91it/s][A
Validating... (loss=1.81913):  90%|| 141/157 [00:49<00:05,  2.91it/s][A
Validating... (loss=1.81913):  90%|| 142/157 [00:49<00:05,  2.91it/s][A
Validating... (loss=1.88224):  90%|| 142/157 [00:49<00:05,  2.91it/s][A
Validating... (loss=1.88224):  91%|| 143/157 [00:49<00:04,  2.91it/s][A
Validating... (loss=1.79110):  91%|| 143/157 [00:50<00:04,  2.91it/s][A
Validating... (loss=1.79110):  92%|| 144/157 [00:50<00:04,  2.91it/s][A
Validating... (loss=1.82705):  92%|| 144/157 [00:50<00:04,  2.91it/s][A
Validating... (loss=1.82705):  92%|| 145/157 [00:50<00:04,  2.91it/s][A
Validating... (loss=2.03865):  92%|| 145/157 [00:50<00:04,  2.91it/s][A
Validating... (loss=2.03865):  93%|| 146/157 [00:50<00:03,  2.91it/s][A
Validating... (loss=1.92329):  93%|| 146/157 [00:51<00:03,  2.91it/s][A
Validating... (loss=1.92329):  94%|| 147/157 [00:51<00:03,  2.91it/s][A
Validating... (loss=1.89528):  94%|| 147/157 [00:51<00:03,  2.91it/s][A
Validating... (loss=1.89528):  94%|| 148/157 [00:51<00:03,  2.91it/s][A
Validating... (loss=1.94005):  94%|| 148/157 [00:51<00:03,  2.91it/s][A
Validating... (loss=1.94005):  95%|| 149/157 [00:51<00:02,  2.91it/s][A
Validating... (loss=1.78259):  95%|| 149/157 [00:52<00:02,  2.91it/s][A
Validating... (loss=1.78259):  96%|| 150/157 [00:52<00:02,  2.90it/s][A
Validating... (loss=1.79870):  96%|| 150/157 [00:52<00:02,  2.90it/s][A
Validating... (loss=1.79870):  96%|| 151/157 [00:52<00:02,  2.90it/s][A
Validating... (loss=1.75124):  96%|| 151/157 [00:52<00:02,  2.90it/s][A
Validating... (loss=1.75124):  97%|| 152/157 [00:52<00:01,  2.90it/s][A
Validating... (loss=1.91097):  97%|| 152/157 [00:53<00:01,  2.90it/s][A
Validating... (loss=1.91097):  97%|| 153/157 [00:53<00:01,  2.91it/s][A
Validating... (loss=1.84666):  97%|| 153/157 [00:53<00:01,  2.91it/s][A
Validating... (loss=1.84666):  98%|| 154/157 [00:53<00:01,  2.91it/s][A
Validating... (loss=2.01358):  98%|| 154/157 [00:53<00:01,  2.91it/s][A
Validating... (loss=2.01358):  99%|| 155/157 [00:53<00:00,  2.91it/s][A
Validating... (loss=1.83136):  99%|| 155/157 [00:54<00:00,  2.91it/s][A
Validating... (loss=1.83136):  99%|| 156/157 [00:54<00:00,  2.91it/s][A
Validating... (loss=1.92333):  99%|| 156/157 [00:54<00:00,  2.91it/s][A
Validating... (loss=1.92333): 100%|| 157/157 [00:54<00:00,  3.69it/s][AValidating... (loss=1.92333): 100%|| 157/157 [00:54<00:00,  2.87it/s]
09/24/2022 06:55:23 - INFO - __main__ - 

09/24/2022 06:55:23 - INFO - __main__ - Validation Results
09/24/2022 06:55:23 - INFO - __main__ - Global Steps: 300
09/24/2022 06:55:23 - INFO - __main__ - Valid Loss: 1.90219
09/24/2022 06:55:23 - INFO - __main__ - Valid Accuracy: 0.29380
09/24/2022 06:55:24 - INFO - __main__ - Saved model checkpoint to [DIR: output]
Training (300 / 500 Steps) (loss=1.97168):  38%|| 300/782 [08:05<2:21:33, 17.62s/it]Training (301 / 500 Steps) (loss=2.01172):  38%|| 300/782 [08:06<2:21:33, 17.62s/it]Training (301 / 500 Steps) (loss=2.01172):  38%|| 301/782 [08:06<1:41:22, 12.65s/it]Training (302 / 500 Steps) (loss=1.96777):  38%|| 301/782 [08:07<1:41:22, 12.65s/it]Training (302 / 500 Steps) (loss=1.96777):  39%|| 302/782 [08:07<1:13:17,  9.16s/it]Training (303 / 500 Steps) (loss=1.97070):  39%|| 302/782 [08:08<1:13:17,  9.16s/it]Training (303 / 500 Steps) (loss=1.97070):  39%|| 303/782 [08:08<53:40,  6.72s/it]  Training (304 / 500 Steps) (loss=2.06641):  39%|| 303/782 [08:09<53:40,  6.72s/it]Training (304 / 500 Steps) (loss=2.06641):  39%|| 304/782 [08:09<39:58,  5.02s/it]Training (305 / 500 Steps) (loss=2.05859):  39%|| 304/782 [08:10<39:58,  5.02s/it]Training (305 / 500 Steps) (loss=2.05859):  39%|| 305/782 [08:10<30:22,  3.82s/it]Training (306 / 500 Steps) (loss=2.02930):  39%|| 305/782 [08:11<30:22,  3.82s/it]Training (306 / 500 Steps) (loss=2.02930):  39%|| 306/782 [08:11<23:40,  2.98s/it]Training (307 / 500 Steps) (loss=1.92969):  39%|| 306/782 [08:12<23:40,  2.98s/it]Training (307 / 500 Steps) (loss=1.92969):  39%|| 307/782 [08:12<18:59,  2.40s/it]Training (308 / 500 Steps) (loss=2.11914):  39%|| 307/782 [08:13<18:59,  2.40s/it]Training (308 / 500 Steps) (loss=2.11914):  39%|| 308/782 [08:13<15:42,  1.99s/it]Training (309 / 500 Steps) (loss=1.79590):  39%|| 308/782 [08:14<15:42,  1.99s/it]Training (309 / 500 Steps) (loss=1.79590):  40%|| 309/782 [08:14<13:24,  1.70s/it]Training (310 / 500 Steps) (loss=1.98242):  40%|| 309/782 [08:15<13:24,  1.70s/it]Training (310 / 500 Steps) (loss=1.98242):  40%|| 310/782 [08:15<11:47,  1.50s/it]Training (311 / 500 Steps) (loss=1.87500):  40%|| 310/782 [08:16<11:47,  1.50s/it]Training (311 / 500 Steps) (loss=1.87500):  40%|| 311/782 [08:16<10:40,  1.36s/it]Training (312 / 500 Steps) (loss=2.06055):  40%|| 311/782 [08:17<10:40,  1.36s/it]Training (312 / 500 Steps) (loss=2.06055):  40%|| 312/782 [08:17<09:53,  1.26s/it]Training (313 / 500 Steps) (loss=2.07812):  40%|| 312/782 [08:18<09:53,  1.26s/it]Training (313 / 500 Steps) (loss=2.07812):  40%|| 313/782 [08:18<09:19,  1.19s/it]Training (314 / 500 Steps) (loss=1.82617):  40%|| 313/782 [08:19<09:19,  1.19s/it]Training (314 / 500 Steps) (loss=1.82617):  40%|| 314/782 [08:19<08:56,  1.15s/it]Training (315 / 500 Steps) (loss=1.93457):  40%|| 314/782 [08:20<08:56,  1.15s/it]Training (315 / 500 Steps) (loss=1.93457):  40%|| 315/782 [08:20<08:38,  1.11s/it]Training (316 / 500 Steps) (loss=1.90723):  40%|| 315/782 [08:21<08:38,  1.11s/it]Training (316 / 500 Steps) (loss=1.90723):  40%|| 316/782 [08:21<08:26,  1.09s/it]Training (317 / 500 Steps) (loss=1.90918):  40%|| 316/782 [08:22<08:26,  1.09s/it]Training (317 / 500 Steps) (loss=1.90918):  41%|| 317/782 [08:22<08:18,  1.07s/it]Training (318 / 500 Steps) (loss=2.05664):  41%|| 317/782 [08:23<08:18,  1.07s/it]Training (318 / 500 Steps) (loss=2.05664):  41%|| 318/782 [08:23<08:11,  1.06s/it]Training (319 / 500 Steps) (loss=1.88184):  41%|| 318/782 [08:24<08:11,  1.06s/it]Training (319 / 500 Steps) (loss=1.88184):  41%|| 319/782 [08:24<08:06,  1.05s/it]Training (320 / 500 Steps) (loss=2.14258):  41%|| 319/782 [08:25<08:06,  1.05s/it]Training (320 / 500 Steps) (loss=2.14258):  41%|| 320/782 [08:25<08:02,  1.04s/it]Training (321 / 500 Steps) (loss=1.93066):  41%|| 320/782 [08:26<08:02,  1.04s/it]Training (321 / 500 Steps) (loss=1.93066):  41%|| 321/782 [08:26<08:00,  1.04s/it]Training (322 / 500 Steps) (loss=1.91699):  41%|| 321/782 [08:27<08:00,  1.04s/it]Training (322 / 500 Steps) (loss=1.91699):  41%|| 322/782 [08:27<07:58,  1.04s/it]Training (323 / 500 Steps) (loss=2.02344):  41%|| 322/782 [08:28<07:58,  1.04s/it]Training (323 / 500 Steps) (loss=2.02344):  41%|| 323/782 [08:28<07:56,  1.04s/it]Training (324 / 500 Steps) (loss=2.01953):  41%|| 323/782 [08:29<07:56,  1.04s/it]Training (324 / 500 Steps) (loss=2.01953):  41%|| 324/782 [08:29<07:54,  1.04s/it]Training (325 / 500 Steps) (loss=1.86035):  41%|| 324/782 [08:30<07:54,  1.04s/it]Training (325 / 500 Steps) (loss=1.86035):  42%|| 325/782 [08:30<07:52,  1.03s/it]Training (326 / 500 Steps) (loss=1.98535):  42%|| 325/782 [08:31<07:52,  1.03s/it]Training (326 / 500 Steps) (loss=1.98535):  42%|| 326/782 [08:31<07:50,  1.03s/it]Training (327 / 500 Steps) (loss=2.03516):  42%|| 326/782 [08:33<07:50,  1.03s/it]Training (327 / 500 Steps) (loss=2.03516):  42%|| 327/782 [08:33<07:50,  1.03s/it]Training (328 / 500 Steps) (loss=1.93262):  42%|| 327/782 [08:34<07:50,  1.03s/it]Training (328 / 500 Steps) (loss=1.93262):  42%|| 328/782 [08:34<07:49,  1.03s/it]Training (329 / 500 Steps) (loss=1.92090):  42%|| 328/782 [08:35<07:49,  1.03s/it]Training (329 / 500 Steps) (loss=1.92090):  42%|| 329/782 [08:35<07:48,  1.03s/it]Training (330 / 500 Steps) (loss=2.15625):  42%|| 329/782 [08:36<07:48,  1.03s/it]Training (330 / 500 Steps) (loss=2.15625):  42%|| 330/782 [08:36<07:48,  1.04s/it]Training (331 / 500 Steps) (loss=2.21484):  42%|| 330/782 [08:37<07:48,  1.04s/it]Training (331 / 500 Steps) (loss=2.21484):  42%|| 331/782 [08:37<07:47,  1.04s/it]Training (332 / 500 Steps) (loss=1.93262):  42%|| 331/782 [08:38<07:47,  1.04s/it]Training (332 / 500 Steps) (loss=1.93262):  42%|| 332/782 [08:38<07:46,  1.04s/it]Training (333 / 500 Steps) (loss=1.95215):  42%|| 332/782 [08:39<07:46,  1.04s/it]Training (333 / 500 Steps) (loss=1.95215):  43%|| 333/782 [08:39<07:44,  1.04s/it]Training (334 / 500 Steps) (loss=1.83398):  43%|| 333/782 [08:40<07:44,  1.04s/it]Training (334 / 500 Steps) (loss=1.83398):  43%|| 334/782 [08:40<07:43,  1.03s/it]Training (335 / 500 Steps) (loss=2.17578):  43%|| 334/782 [08:41<07:43,  1.03s/it]Training (335 / 500 Steps) (loss=2.17578):  43%|| 335/782 [08:41<07:42,  1.03s/it]Training (336 / 500 Steps) (loss=2.02148):  43%|| 335/782 [08:42<07:42,  1.03s/it]Training (336 / 500 Steps) (loss=2.02148):  43%|| 336/782 [08:42<07:41,  1.03s/it]Training (337 / 500 Steps) (loss=1.94238):  43%|| 336/782 [08:43<07:41,  1.03s/it]Training (337 / 500 Steps) (loss=1.94238):  43%|| 337/782 [08:43<07:39,  1.03s/it]Training (338 / 500 Steps) (loss=1.84766):  43%|| 337/782 [08:44<07:39,  1.03s/it]Training (338 / 500 Steps) (loss=1.84766):  43%|| 338/782 [08:44<07:38,  1.03s/it]Training (339 / 500 Steps) (loss=2.03711):  43%|| 338/782 [08:45<07:38,  1.03s/it]Training (339 / 500 Steps) (loss=2.03711):  43%|| 339/782 [08:45<07:37,  1.03s/it]Training (340 / 500 Steps) (loss=1.70996):  43%|| 339/782 [08:46<07:37,  1.03s/it]Training (340 / 500 Steps) (loss=1.70996):  43%|| 340/782 [08:46<07:36,  1.03s/it]Training (341 / 500 Steps) (loss=1.84863):  43%|| 340/782 [08:47<07:36,  1.03s/it]Training (341 / 500 Steps) (loss=1.84863):  44%|| 341/782 [08:47<07:37,  1.04s/it]Training (342 / 500 Steps) (loss=1.84082):  44%|| 341/782 [08:48<07:37,  1.04s/it]Training (342 / 500 Steps) (loss=1.84082):  44%|| 342/782 [08:48<07:35,  1.03s/it]Training (343 / 500 Steps) (loss=2.10938):  44%|| 342/782 [08:49<07:35,  1.03s/it]Training (343 / 500 Steps) (loss=2.10938):  44%|| 343/782 [08:49<07:34,  1.04s/it]Training (344 / 500 Steps) (loss=1.96289):  44%|| 343/782 [08:50<07:34,  1.04s/it]Training (344 / 500 Steps) (loss=1.96289):  44%|| 344/782 [08:50<07:33,  1.04s/it]Training (345 / 500 Steps) (loss=2.31055):  44%|| 344/782 [08:51<07:33,  1.04s/it]Training (345 / 500 Steps) (loss=2.31055):  44%|| 345/782 [08:51<07:32,  1.03s/it]Training (346 / 500 Steps) (loss=1.97559):  44%|| 345/782 [08:52<07:32,  1.03s/it]Training (346 / 500 Steps) (loss=1.97559):  44%|| 346/782 [08:52<07:34,  1.04s/it]Training (347 / 500 Steps) (loss=2.02539):  44%|| 346/782 [08:53<07:34,  1.04s/it]Training (347 / 500 Steps) (loss=2.02539):  44%|| 347/782 [08:53<07:33,  1.04s/it]Training (348 / 500 Steps) (loss=1.89258):  44%|| 347/782 [08:54<07:33,  1.04s/it]Training (348 / 500 Steps) (loss=1.89258):  45%|| 348/782 [08:54<07:30,  1.04s/it]Training (349 / 500 Steps) (loss=1.99902):  45%|| 348/782 [08:55<07:30,  1.04s/it]Training (349 / 500 Steps) (loss=1.99902):  45%|| 349/782 [08:55<07:28,  1.04s/it]Training (350 / 500 Steps) (loss=2.12109):  45%|| 349/782 [08:56<07:28,  1.04s/it]Training (350 / 500 Steps) (loss=2.12109):  45%|| 350/782 [08:56<07:26,  1.03s/it]Training (351 / 500 Steps) (loss=1.88477):  45%|| 350/782 [08:57<07:26,  1.03s/it]Training (351 / 500 Steps) (loss=1.88477):  45%|| 351/782 [08:57<07:24,  1.03s/it]Training (352 / 500 Steps) (loss=2.09766):  45%|| 351/782 [08:58<07:24,  1.03s/it]Training (352 / 500 Steps) (loss=2.09766):  45%|| 352/782 [08:58<07:22,  1.03s/it]Training (353 / 500 Steps) (loss=1.91797):  45%|| 352/782 [08:59<07:22,  1.03s/it]Training (353 / 500 Steps) (loss=1.91797):  45%|| 353/782 [08:59<07:23,  1.03s/it]Training (354 / 500 Steps) (loss=2.08984):  45%|| 353/782 [09:00<07:23,  1.03s/it]Training (354 / 500 Steps) (loss=2.08984):  45%|| 354/782 [09:00<07:21,  1.03s/it]Training (355 / 500 Steps) (loss=1.73926):  45%|| 354/782 [09:01<07:21,  1.03s/it]Training (355 / 500 Steps) (loss=1.73926):  45%|| 355/782 [09:01<07:21,  1.03s/it]Training (356 / 500 Steps) (loss=2.05469):  45%|| 355/782 [09:03<07:21,  1.03s/it]Training (356 / 500 Steps) (loss=2.05469):  46%|| 356/782 [09:03<07:21,  1.04s/it]Training (357 / 500 Steps) (loss=1.98828):  46%|| 356/782 [09:04<07:21,  1.04s/it]Training (357 / 500 Steps) (loss=1.98828):  46%|| 357/782 [09:04<07:19,  1.03s/it]Training (358 / 500 Steps) (loss=2.04102):  46%|| 357/782 [09:05<07:19,  1.03s/it]Training (358 / 500 Steps) (loss=2.04102):  46%|| 358/782 [09:05<07:20,  1.04s/it]Training (359 / 500 Steps) (loss=1.72754):  46%|| 358/782 [09:06<07:20,  1.04s/it]Training (359 / 500 Steps) (loss=1.72754):  46%|| 359/782 [09:06<07:18,  1.04s/it]Training (360 / 500 Steps) (loss=1.82520):  46%|| 359/782 [09:07<07:18,  1.04s/it]Training (360 / 500 Steps) (loss=1.82520):  46%|| 360/782 [09:07<07:17,  1.04s/it]Training (361 / 500 Steps) (loss=2.11719):  46%|| 360/782 [09:08<07:17,  1.04s/it]Training (361 / 500 Steps) (loss=2.11719):  46%|| 361/782 [09:08<07:15,  1.03s/it]Training (362 / 500 Steps) (loss=1.95508):  46%|| 361/782 [09:09<07:15,  1.03s/it]Training (362 / 500 Steps) (loss=1.95508):  46%|| 362/782 [09:09<07:15,  1.04s/it]Training (363 / 500 Steps) (loss=1.93262):  46%|| 362/782 [09:10<07:15,  1.04s/it]Training (363 / 500 Steps) (loss=1.93262):  46%|| 363/782 [09:10<07:13,  1.03s/it]Training (364 / 500 Steps) (loss=1.95508):  46%|| 363/782 [09:11<07:13,  1.03s/it]Training (364 / 500 Steps) (loss=1.95508):  47%|| 364/782 [09:11<07:11,  1.03s/it]Training (365 / 500 Steps) (loss=2.07812):  47%|| 364/782 [09:12<07:11,  1.03s/it]Training (365 / 500 Steps) (loss=2.07812):  47%|| 365/782 [09:12<07:10,  1.03s/it]Training (366 / 500 Steps) (loss=1.99805):  47%|| 365/782 [09:13<07:10,  1.03s/it]Training (366 / 500 Steps) (loss=1.99805):  47%|| 366/782 [09:13<07:08,  1.03s/it]Training (367 / 500 Steps) (loss=1.94922):  47%|| 366/782 [09:14<07:08,  1.03s/it]Training (367 / 500 Steps) (loss=1.94922):  47%|| 367/782 [09:14<07:08,  1.03s/it]Training (368 / 500 Steps) (loss=1.95215):  47%|| 367/782 [09:15<07:08,  1.03s/it]Training (368 / 500 Steps) (loss=1.95215):  47%|| 368/782 [09:15<07:06,  1.03s/it]Training (369 / 500 Steps) (loss=2.12500):  47%|| 368/782 [09:16<07:06,  1.03s/it]Training (369 / 500 Steps) (loss=2.12500):  47%|| 369/782 [09:16<07:05,  1.03s/it]Training (370 / 500 Steps) (loss=1.93945):  47%|| 369/782 [09:17<07:05,  1.03s/it]Training (370 / 500 Steps) (loss=1.93945):  47%|| 370/782 [09:17<07:05,  1.03s/it]Training (371 / 500 Steps) (loss=1.99512):  47%|| 370/782 [09:18<07:05,  1.03s/it]Training (371 / 500 Steps) (loss=1.99512):  47%|| 371/782 [09:18<07:04,  1.03s/it]Training (372 / 500 Steps) (loss=1.92090):  47%|| 371/782 [09:19<07:04,  1.03s/it]Training (372 / 500 Steps) (loss=1.92090):  48%|| 372/782 [09:19<07:03,  1.03s/it]Training (373 / 500 Steps) (loss=2.16406):  48%|| 372/782 [09:20<07:03,  1.03s/it]Training (373 / 500 Steps) (loss=2.16406):  48%|| 373/782 [09:20<07:01,  1.03s/it]Training (374 / 500 Steps) (loss=1.86523):  48%|| 373/782 [09:21<07:01,  1.03s/it]Training (374 / 500 Steps) (loss=1.86523):  48%|| 374/782 [09:21<07:00,  1.03s/it]Training (375 / 500 Steps) (loss=1.88867):  48%|| 374/782 [09:22<07:00,  1.03s/it]Training (375 / 500 Steps) (loss=1.88867):  48%|| 375/782 [09:22<06:58,  1.03s/it]Training (376 / 500 Steps) (loss=2.07422):  48%|| 375/782 [09:23<06:58,  1.03s/it]Training (376 / 500 Steps) (loss=2.07422):  48%|| 376/782 [09:23<06:58,  1.03s/it]Training (377 / 500 Steps) (loss=1.96191):  48%|| 376/782 [09:24<06:58,  1.03s/it]Training (377 / 500 Steps) (loss=1.96191):  48%|| 377/782 [09:24<06:56,  1.03s/it]Training (378 / 500 Steps) (loss=1.92578):  48%|| 377/782 [09:25<06:56,  1.03s/it]Training (378 / 500 Steps) (loss=1.92578):  48%|| 378/782 [09:25<06:56,  1.03s/it]Training (379 / 500 Steps) (loss=1.79492):  48%|| 378/782 [09:26<06:56,  1.03s/it]Training (379 / 500 Steps) (loss=1.79492):  48%|| 379/782 [09:26<06:56,  1.03s/it]Training (380 / 500 Steps) (loss=1.97461):  48%|| 379/782 [09:27<06:56,  1.03s/it]Training (380 / 500 Steps) (loss=1.97461):  49%|| 380/782 [09:27<06:55,  1.03s/it]Training (381 / 500 Steps) (loss=1.80566):  49%|| 380/782 [09:28<06:55,  1.03s/it]Training (381 / 500 Steps) (loss=1.80566):  49%|| 381/782 [09:28<06:53,  1.03s/it]Training (382 / 500 Steps) (loss=1.98145):  49%|| 381/782 [09:29<06:53,  1.03s/it]Training (382 / 500 Steps) (loss=1.98145):  49%|| 382/782 [09:29<06:52,  1.03s/it]Training (383 / 500 Steps) (loss=1.97266):  49%|| 382/782 [09:30<06:52,  1.03s/it]Training (383 / 500 Steps) (loss=1.97266):  49%|| 383/782 [09:30<06:51,  1.03s/it]Training (384 / 500 Steps) (loss=1.89551):  49%|| 383/782 [09:31<06:51,  1.03s/it]Training (384 / 500 Steps) (loss=1.89551):  49%|| 384/782 [09:31<06:51,  1.03s/it]Training (385 / 500 Steps) (loss=1.94238):  49%|| 384/782 [09:32<06:51,  1.03s/it]Training (385 / 500 Steps) (loss=1.94238):  49%|| 385/782 [09:32<06:49,  1.03s/it]Training (386 / 500 Steps) (loss=1.92090):  49%|| 385/782 [09:34<06:49,  1.03s/it]Training (386 / 500 Steps) (loss=1.92090):  49%|| 386/782 [09:34<06:47,  1.03s/it]Training (387 / 500 Steps) (loss=2.06055):  49%|| 386/782 [09:35<06:47,  1.03s/it]Training (387 / 500 Steps) (loss=2.06055):  49%|| 387/782 [09:35<06:46,  1.03s/it]Training (388 / 500 Steps) (loss=1.98828):  49%|| 387/782 [09:36<06:46,  1.03s/it]Training (388 / 500 Steps) (loss=1.98828):  50%|| 388/782 [09:36<06:46,  1.03s/it]Training (389 / 500 Steps) (loss=2.02734):  50%|| 388/782 [09:37<06:46,  1.03s/it]Training (389 / 500 Steps) (loss=2.02734):  50%|| 389/782 [09:37<06:45,  1.03s/it]Training (390 / 500 Steps) (loss=1.89648):  50%|| 389/782 [09:38<06:45,  1.03s/it]Training (390 / 500 Steps) (loss=1.89648):  50%|| 390/782 [09:38<06:44,  1.03s/it]Training (391 / 500 Steps) (loss=1.99023):  50%|| 390/782 [09:39<06:44,  1.03s/it]Training (391 / 500 Steps) (loss=1.99023):  50%|| 391/782 [09:39<06:42,  1.03s/it]Training (392 / 500 Steps) (loss=1.88086):  50%|| 391/782 [09:40<06:42,  1.03s/it]Training (392 / 500 Steps) (loss=1.88086):  50%|| 392/782 [09:40<06:41,  1.03s/it]Training (393 / 500 Steps) (loss=1.76660):  50%|| 392/782 [09:41<06:41,  1.03s/it]Training (393 / 500 Steps) (loss=1.76660):  50%|| 393/782 [09:41<06:39,  1.03s/it]Training (394 / 500 Steps) (loss=1.90430):  50%|| 393/782 [09:42<06:39,  1.03s/it]Training (394 / 500 Steps) (loss=1.90430):  50%|| 394/782 [09:42<06:39,  1.03s/it]Training (395 / 500 Steps) (loss=2.15234):  50%|| 394/782 [09:43<06:39,  1.03s/it]Training (395 / 500 Steps) (loss=2.15234):  51%|| 395/782 [09:43<06:38,  1.03s/it]Training (396 / 500 Steps) (loss=1.88086):  51%|| 395/782 [09:44<06:38,  1.03s/it]Training (396 / 500 Steps) (loss=1.88086):  51%|| 396/782 [09:44<06:38,  1.03s/it]Training (397 / 500 Steps) (loss=1.85059):  51%|| 396/782 [09:45<06:38,  1.03s/it]Training (397 / 500 Steps) (loss=1.85059):  51%|| 397/782 [09:45<06:37,  1.03s/it]Training (398 / 500 Steps) (loss=1.82031):  51%|| 397/782 [09:46<06:37,  1.03s/it]Training (398 / 500 Steps) (loss=1.82031):  51%|| 398/782 [09:46<06:36,  1.03s/it]Training (399 / 500 Steps) (loss=1.92773):  51%|| 398/782 [09:47<06:36,  1.03s/it]Training (399 / 500 Steps) (loss=1.92773):  51%|| 399/782 [09:47<06:34,  1.03s/it]Training (400 / 500 Steps) (loss=2.09766):  51%|| 399/782 [09:48<06:34,  1.03s/it]09/24/2022 06:57:07 - INFO - __main__ - ***** Running Validation *****
09/24/2022 06:57:07 - INFO - __main__ -   Num steps = 157
09/24/2022 06:57:07 - INFO - __main__ -   Batch size = 64

Validating... (loss=X.X):   0%|| 0/157 [00:00<?, ?it/s][A
Validating... (loss=1.71826):   0%|| 0/157 [00:01<?, ?it/s][A
Validating... (loss=1.71826):   1%|| 1/157 [00:01<02:39,  1.02s/it][A
Validating... (loss=1.91213):   1%|| 1/157 [00:01<02:39,  1.02s/it][A
Validating... (loss=1.91213):   1%|| 2/157 [00:01<01:36,  1.60it/s][A
Validating... (loss=1.90706):   1%|| 2/157 [00:01<01:36,  1.60it/s][A
Validating... (loss=1.90706):   2%|| 3/157 [00:01<01:16,  2.02it/s][A
Validating... (loss=1.84237):   2%|| 3/157 [00:02<01:16,  2.02it/s][A
Validating... (loss=1.84237):   3%|| 4/157 [00:02<01:06,  2.29it/s][A
Validating... (loss=1.74989):   3%|| 4/157 [00:02<01:06,  2.29it/s][A
Validating... (loss=1.74989):   3%|| 5/157 [00:02<01:01,  2.48it/s][A
Validating... (loss=2.00100):   3%|| 5/157 [00:02<01:01,  2.48it/s][A
Validating... (loss=2.00100):   4%|| 6/157 [00:02<00:57,  2.61it/s][A
Validating... (loss=1.97118):   4%|| 6/157 [00:03<00:57,  2.61it/s][A
Validating... (loss=1.97118):   4%|| 7/157 [00:03<00:55,  2.71it/s][A
Validating... (loss=1.75661):   4%|| 7/157 [00:03<00:55,  2.71it/s][A
Validating... (loss=1.75661):   5%|| 8/157 [00:03<00:53,  2.77it/s][A
Validating... (loss=1.89319):   5%|| 8/157 [00:03<00:53,  2.77it/s][A
Validating... (loss=1.89319):   6%|| 9/157 [00:03<00:52,  2.81it/s][A
Validating... (loss=1.83649):   6%|| 9/157 [00:04<00:52,  2.81it/s][A
Validating... (loss=1.83649):   6%|| 10/157 [00:04<00:51,  2.84it/s][A
Validating... (loss=2.13902):   6%|| 10/157 [00:04<00:51,  2.84it/s][A
Validating... (loss=2.13902):   7%|| 11/157 [00:04<00:50,  2.86it/s][A
Validating... (loss=1.98646):   7%|| 11/157 [00:04<00:50,  2.86it/s][A
Validating... (loss=1.98646):   8%|| 12/157 [00:04<00:50,  2.88it/s][A
Validating... (loss=1.99986):   8%|| 12/157 [00:05<00:50,  2.88it/s][A
Validating... (loss=1.99986):   8%|| 13/157 [00:05<00:50,  2.88it/s][A
Validating... (loss=1.92474):   8%|| 13/157 [00:05<00:50,  2.88it/s][A
Validating... (loss=1.92474):   9%|| 14/157 [00:05<00:49,  2.89it/s][A
Validating... (loss=1.95371):   9%|| 14/157 [00:05<00:49,  2.89it/s][A
Validating... (loss=1.95371):  10%|| 15/157 [00:05<00:49,  2.90it/s][A
Validating... (loss=1.78102):  10%|| 15/157 [00:06<00:49,  2.90it/s][A
Validating... (loss=1.78102):  10%|| 16/157 [00:06<00:48,  2.89it/s][A
Validating... (loss=2.19048):  10%|| 16/157 [00:06<00:48,  2.89it/s][A
Validating... (loss=2.19048):  11%|| 17/157 [00:06<00:48,  2.89it/s][A
Validating... (loss=1.97783):  11%|| 17/157 [00:06<00:48,  2.89it/s][A
Validating... (loss=1.97783):  11%|| 18/157 [00:06<00:47,  2.90it/s][A
Validating... (loss=1.91356):  11%|| 18/157 [00:07<00:47,  2.90it/s][A
Validating... (loss=1.91356):  12%|| 19/157 [00:07<00:47,  2.90it/s][A
Validating... (loss=2.00392):  12%|| 19/157 [00:07<00:47,  2.90it/s][A
Validating... (loss=2.00392):  13%|| 20/157 [00:07<00:47,  2.90it/s][A
Validating... (loss=1.96589):  13%|| 20/157 [00:07<00:47,  2.90it/s][A
Validating... (loss=1.96589):  13%|| 21/157 [00:07<00:46,  2.91it/s][A
Validating... (loss=1.90934):  13%|| 21/157 [00:08<00:46,  2.91it/s][A
Validating... (loss=1.90934):  14%|| 22/157 [00:08<00:46,  2.91it/s][A
Validating... (loss=1.85163):  14%|| 22/157 [00:08<00:46,  2.91it/s][A
Validating... (loss=1.85163):  15%|| 23/157 [00:08<00:46,  2.91it/s][A
Validating... (loss=1.85054):  15%|| 23/157 [00:08<00:46,  2.91it/s][A
Validating... (loss=1.85054):  15%|| 24/157 [00:08<00:45,  2.91it/s][A
Validating... (loss=1.92345):  15%|| 24/157 [00:09<00:45,  2.91it/s][A
Validating... (loss=1.92345):  16%|| 25/157 [00:09<00:45,  2.91it/s][A
Validating... (loss=2.04721):  16%|| 25/157 [00:09<00:45,  2.91it/s][A
Validating... (loss=2.04721):  17%|| 26/157 [00:09<00:44,  2.91it/s][A
Validating... (loss=1.82246):  17%|| 26/157 [00:09<00:44,  2.91it/s][A
Validating... (loss=1.82246):  17%|| 27/157 [00:09<00:44,  2.91it/s][A
Validating... (loss=1.78883):  17%|| 27/157 [00:10<00:44,  2.91it/s][A
Validating... (loss=1.78883):  18%|| 28/157 [00:10<00:44,  2.91it/s][A
Validating... (loss=1.98897):  18%|| 28/157 [00:10<00:44,  2.91it/s][A
Validating... (loss=1.98897):  18%|| 29/157 [00:10<00:43,  2.91it/s][A
Validating... (loss=1.91599):  18%|| 29/157 [00:10<00:43,  2.91it/s][A
Validating... (loss=1.91599):  19%|| 30/157 [00:10<00:43,  2.91it/s][A
Validating... (loss=1.93937):  19%|| 30/157 [00:11<00:43,  2.91it/s][A
Validating... (loss=1.93937):  20%|| 31/157 [00:11<00:43,  2.91it/s][A
Validating... (loss=1.80103):  20%|| 31/157 [00:11<00:43,  2.91it/s][A
Validating... (loss=1.80103):  20%|| 32/157 [00:11<00:42,  2.91it/s][A
Validating... (loss=1.89526):  20%|| 32/157 [00:12<00:42,  2.91it/s][A
Validating... (loss=1.89526):  21%|| 33/157 [00:12<00:42,  2.91it/s][A
Validating... (loss=1.87476):  21%|| 33/157 [00:12<00:42,  2.91it/s][A
Validating... (loss=1.87476):  22%|| 34/157 [00:12<00:42,  2.91it/s][A
Validating... (loss=1.95340):  22%|| 34/157 [00:12<00:42,  2.91it/s][A
Validating... (loss=1.95340):  22%|| 35/157 [00:12<00:42,  2.90it/s][A
Validating... (loss=1.94698):  22%|| 35/157 [00:13<00:42,  2.90it/s][A
Validating... (loss=1.94698):  23%|| 36/157 [00:13<00:41,  2.90it/s][A
Validating... (loss=1.88216):  23%|| 36/157 [00:13<00:41,  2.90it/s][A
Validating... (loss=1.88216):  24%|| 37/157 [00:13<00:41,  2.90it/s][A
Validating... (loss=1.97905):  24%|| 37/157 [00:13<00:41,  2.90it/s][A
Validating... (loss=1.97905):  24%|| 38/157 [00:13<00:41,  2.89it/s][A
Validating... (loss=1.68840):  24%|| 38/157 [00:14<00:41,  2.89it/s][A
Validating... (loss=1.68840):  25%|| 39/157 [00:14<00:40,  2.89it/s][A
Validating... (loss=2.15789):  25%|| 39/157 [00:14<00:40,  2.89it/s][A
Validating... (loss=2.15789):  25%|| 40/157 [00:14<00:40,  2.90it/s][A
Validating... (loss=1.93746):  25%|| 40/157 [00:14<00:40,  2.90it/s][A
Validating... (loss=1.93746):  26%|| 41/157 [00:14<00:39,  2.91it/s][A
Validating... (loss=1.94916):  26%|| 41/157 [00:15<00:39,  2.91it/s][A
Validating... (loss=1.94916):  27%|| 42/157 [00:15<00:39,  2.91it/s][A
Validating... (loss=1.80501):  27%|| 42/157 [00:15<00:39,  2.91it/s][A
Validating... (loss=1.80501):  27%|| 43/157 [00:15<00:39,  2.91it/s][A
Validating... (loss=2.18719):  27%|| 43/157 [00:15<00:39,  2.91it/s][A
Validating... (loss=2.18719):  28%|| 44/157 [00:15<00:38,  2.91it/s][A
Validating... (loss=2.12348):  28%|| 44/157 [00:16<00:38,  2.91it/s][A
Validating... (loss=2.12348):  29%|| 45/157 [00:16<00:38,  2.91it/s][A
Validating... (loss=1.85761):  29%|| 45/157 [00:16<00:38,  2.91it/s][A
Validating... (loss=1.85761):  29%|| 46/157 [00:16<00:38,  2.91it/s][A
Validating... (loss=1.97361):  29%|| 46/157 [00:16<00:38,  2.91it/s][A
Validating... (loss=1.97361):  30%|| 47/157 [00:16<00:37,  2.91it/s][A
Validating... (loss=1.83719):  30%|| 47/157 [00:17<00:37,  2.91it/s][A
Validating... (loss=1.83719):  31%|| 48/157 [00:17<00:37,  2.91it/s][A
Validating... (loss=1.90547):  31%|| 48/157 [00:17<00:37,  2.91it/s][A
Validating... (loss=1.90547):  31%|| 49/157 [00:17<00:37,  2.91it/s][A
Validating... (loss=1.93934):  31%|| 49/157 [00:17<00:37,  2.91it/s][A
Validating... (loss=1.93934):  32%|| 50/157 [00:17<00:36,  2.91it/s][A
Validating... (loss=2.17348):  32%|| 50/157 [00:18<00:36,  2.91it/s][A
Validating... (loss=2.17348):  32%|| 51/157 [00:18<00:36,  2.91it/s][A
Validating... (loss=1.94004):  32%|| 51/157 [00:18<00:36,  2.91it/s][A
Validating... (loss=1.94004):  33%|| 52/157 [00:18<00:36,  2.91it/s][A
Validating... (loss=1.75529):  33%|| 52/157 [00:18<00:36,  2.91it/s][A
Validating... (loss=1.75529):  34%|| 53/157 [00:18<00:35,  2.91it/s][A
Validating... (loss=1.98329):  34%|| 53/157 [00:19<00:35,  2.91it/s][A
Validating... (loss=1.98329):  34%|| 54/157 [00:19<00:35,  2.91it/s][A
Validating... (loss=2.06514):  34%|| 54/157 [00:19<00:35,  2.91it/s][A
Validating... (loss=2.06514):  35%|| 55/157 [00:19<00:35,  2.91it/s][A
Validating... (loss=1.76578):  35%|| 55/157 [00:19<00:35,  2.91it/s][A
Validating... (loss=1.76578):  36%|| 56/157 [00:19<00:34,  2.91it/s][A
Validating... (loss=1.97760):  36%|| 56/157 [00:20<00:34,  2.91it/s][A
Validating... (loss=1.97760):  36%|| 57/157 [00:20<00:34,  2.91it/s][A
Validating... (loss=1.85234):  36%|| 57/157 [00:20<00:34,  2.91it/s][A
Validating... (loss=1.85234):  37%|| 58/157 [00:20<00:34,  2.91it/s][A
Validating... (loss=1.96884):  37%|| 58/157 [00:20<00:34,  2.91it/s][A
Validating... (loss=1.96884):  38%|| 59/157 [00:20<00:33,  2.91it/s][A
Validating... (loss=1.83335):  38%|| 59/157 [00:21<00:33,  2.91it/s][A
Validating... (loss=1.83335):  38%|| 60/157 [00:21<00:33,  2.91it/s][A
Validating... (loss=1.85260):  38%|| 60/157 [00:21<00:33,  2.91it/s][A
Validating... (loss=1.85260):  39%|| 61/157 [00:21<00:32,  2.91it/s][A
Validating... (loss=1.86073):  39%|| 61/157 [00:21<00:32,  2.91it/s][A
Validating... (loss=1.86073):  39%|| 62/157 [00:21<00:32,  2.91it/s][A
Validating... (loss=1.85265):  39%|| 62/157 [00:22<00:32,  2.91it/s][A
Validating... (loss=1.85265):  40%|| 63/157 [00:22<00:32,  2.91it/s][A
Validating... (loss=2.05767):  40%|| 63/157 [00:22<00:32,  2.91it/s][A
Validating... (loss=2.05767):  41%|| 64/157 [00:22<00:31,  2.91it/s][A
Validating... (loss=2.05107):  41%|| 64/157 [00:23<00:31,  2.91it/s][A
Validating... (loss=2.05107):  41%|| 65/157 [00:23<00:31,  2.91it/s][A
Validating... (loss=1.91471):  41%|| 65/157 [00:23<00:31,  2.91it/s][A
Validating... (loss=1.91471):  42%|| 66/157 [00:23<00:31,  2.91it/s][A
Validating... (loss=1.79620):  42%|| 66/157 [00:23<00:31,  2.91it/s][A
Validating... (loss=1.79620):  43%|| 67/157 [00:23<00:30,  2.91it/s][A
Validating... (loss=1.91152):  43%|| 67/157 [00:24<00:30,  2.91it/s][A
Validating... (loss=1.91152):  43%|| 68/157 [00:24<00:30,  2.90it/s][A
Validating... (loss=1.84776):  43%|| 68/157 [00:24<00:30,  2.90it/s][A
Validating... (loss=1.84776):  44%|| 69/157 [00:24<00:30,  2.91it/s][A
Validating... (loss=1.93972):  44%|| 69/157 [00:24<00:30,  2.91it/s][A
Validating... (loss=1.93972):  45%|| 70/157 [00:24<00:29,  2.91it/s][A
Validating... (loss=1.89047):  45%|| 70/157 [00:25<00:29,  2.91it/s][A
Validating... (loss=1.89047):  45%|| 71/157 [00:25<00:29,  2.91it/s][A
Validating... (loss=1.97834):  45%|| 71/157 [00:25<00:29,  2.91it/s][A
Validating... (loss=1.97834):  46%|| 72/157 [00:25<00:29,  2.91it/s][A
Validating... (loss=1.71753):  46%|| 72/157 [00:25<00:29,  2.91it/s][A
Validating... (loss=1.71753):  46%|| 73/157 [00:25<00:28,  2.91it/s][A
Validating... (loss=2.01256):  46%|| 73/157 [00:26<00:28,  2.91it/s][A
Validating... (loss=2.01256):  47%|| 74/157 [00:26<00:28,  2.91it/s][A
Validating... (loss=2.19218):  47%|| 74/157 [00:26<00:28,  2.91it/s][A
Validating... (loss=2.19218):  48%|| 75/157 [00:26<00:28,  2.91it/s][A
Validating... (loss=1.76989):  48%|| 75/157 [00:26<00:28,  2.91it/s][A
Validating... (loss=1.76989):  48%|| 76/157 [00:26<00:27,  2.91it/s][A
Validating... (loss=1.67641):  48%|| 76/157 [00:27<00:27,  2.91it/s][A
Validating... (loss=1.67641):  49%|| 77/157 [00:27<00:27,  2.90it/s][A
Validating... (loss=1.84605):  49%|| 77/157 [00:27<00:27,  2.90it/s][A
Validating... (loss=1.84605):  50%|| 78/157 [00:27<00:27,  2.90it/s][A
Validating... (loss=1.92601):  50%|| 78/157 [00:27<00:27,  2.90it/s][A
Validating... (loss=1.92601):  50%|| 79/157 [00:27<00:26,  2.90it/s][A
Validating... (loss=1.83770):  50%|| 79/157 [00:28<00:26,  2.90it/s][A
Validating... (loss=1.83770):  51%|| 80/157 [00:28<00:26,  2.90it/s][A
Validating... (loss=2.04225):  51%|| 80/157 [00:28<00:26,  2.90it/s][A
Validating... (loss=2.04225):  52%|| 81/157 [00:28<00:26,  2.90it/s][A
Validating... (loss=2.14208):  52%|| 81/157 [00:28<00:26,  2.90it/s][A
Validating... (loss=2.14208):  52%|| 82/157 [00:28<00:25,  2.91it/s][A
Validating... (loss=1.88422):  52%|| 82/157 [00:29<00:25,  2.91it/s][A
Validating... (loss=1.88422):  53%|| 83/157 [00:29<00:25,  2.90it/s][A
Validating... (loss=2.02629):  53%|| 83/157 [00:29<00:25,  2.90it/s][A
Validating... (loss=2.02629):  54%|| 84/157 [00:29<00:25,  2.90it/s][A
Validating... (loss=2.05308):  54%|| 84/157 [00:29<00:25,  2.90it/s][A
Validating... (loss=2.05308):  54%|| 85/157 [00:29<00:24,  2.90it/s][A
Validating... (loss=1.76652):  54%|| 85/157 [00:30<00:24,  2.90it/s][A
Validating... (loss=1.76652):  55%|| 86/157 [00:30<00:24,  2.90it/s][A
Validating... (loss=2.21256):  55%|| 86/157 [00:30<00:24,  2.90it/s][A
Validating... (loss=2.21256):  55%|| 87/157 [00:30<00:24,  2.91it/s][A
Validating... (loss=1.96006):  55%|| 87/157 [00:30<00:24,  2.91it/s][A
Validating... (loss=1.96006):  56%|| 88/157 [00:30<00:23,  2.91it/s][A
Validating... (loss=2.00898):  56%|| 88/157 [00:31<00:23,  2.91it/s][A
Validating... (loss=2.00898):  57%|| 89/157 [00:31<00:23,  2.91it/s][A
Validating... (loss=1.72346):  57%|| 89/157 [00:31<00:23,  2.91it/s][A
Validating... (loss=1.72346):  57%|| 90/157 [00:31<00:23,  2.91it/s][A
Validating... (loss=1.77287):  57%|| 90/157 [00:31<00:23,  2.91it/s][A
Validating... (loss=1.77287):  58%|| 91/157 [00:31<00:22,  2.91it/s][A
Validating... (loss=2.03328):  58%|| 91/157 [00:32<00:22,  2.91it/s][A
Validating... (loss=2.03328):  59%|| 92/157 [00:32<00:22,  2.91it/s][A
Validating... (loss=1.93900):  59%|| 92/157 [00:32<00:22,  2.91it/s][A
Validating... (loss=1.93900):  59%|| 93/157 [00:32<00:21,  2.91it/s][A
Validating... (loss=2.06239):  59%|| 93/157 [00:32<00:21,  2.91it/s][A
Validating... (loss=2.06239):  60%|| 94/157 [00:32<00:21,  2.91it/s][A
Validating... (loss=1.89259):  60%|| 94/157 [00:33<00:21,  2.91it/s][A
Validating... (loss=1.89259):  61%|| 95/157 [00:33<00:21,  2.91it/s][A
Validating... (loss=2.05016):  61%|| 95/157 [00:33<00:21,  2.91it/s][A
Validating... (loss=2.05016):  61%|| 96/157 [00:33<00:20,  2.91it/s][A
Validating... (loss=2.00395):  61%|| 96/157 [00:34<00:20,  2.91it/s][A
Validating... (loss=2.00395):  62%|| 97/157 [00:34<00:20,  2.91it/s][A
Validating... (loss=1.85292):  62%|| 97/157 [00:34<00:20,  2.91it/s][A
Validating... (loss=1.85292):  62%|| 98/157 [00:34<00:20,  2.91it/s][A
Validating... (loss=1.79633):  62%|| 98/157 [00:34<00:20,  2.91it/s][A
Validating... (loss=1.79633):  63%|| 99/157 [00:34<00:19,  2.91it/s][A
Validating... (loss=1.99020):  63%|| 99/157 [00:35<00:19,  2.91it/s][A
Validating... (loss=1.99020):  64%|| 100/157 [00:35<00:19,  2.91it/s][A
Validating... (loss=1.95090):  64%|| 100/157 [00:35<00:19,  2.91it/s][A
Validating... (loss=1.95090):  64%|| 101/157 [00:35<00:19,  2.91it/s][A
Validating... (loss=1.85656):  64%|| 101/157 [00:35<00:19,  2.91it/s][A
Validating... (loss=1.85656):  65%|| 102/157 [00:35<00:18,  2.91it/s][A
Validating... (loss=2.02497):  65%|| 102/157 [00:36<00:18,  2.91it/s][A
Validating... (loss=2.02497):  66%|| 103/157 [00:36<00:18,  2.91it/s][A
Validating... (loss=1.99502):  66%|| 103/157 [00:36<00:18,  2.91it/s][A
Validating... (loss=1.99502):  66%|| 104/157 [00:36<00:18,  2.91it/s][A
Validating... (loss=1.88012):  66%|| 104/157 [00:36<00:18,  2.91it/s][A
Validating... (loss=1.88012):  67%|| 105/157 [00:36<00:17,  2.91it/s][A
Validating... (loss=1.71898):  67%|| 105/157 [00:37<00:17,  2.91it/s][A
Validating... (loss=1.71898):  68%|| 106/157 [00:37<00:17,  2.91it/s][A
Validating... (loss=1.74672):  68%|| 106/157 [00:37<00:17,  2.91it/s][A
Validating... (loss=1.74672):  68%|| 107/157 [00:37<00:17,  2.91it/s][A
Validating... (loss=2.19584):  68%|| 107/157 [00:37<00:17,  2.91it/s][A
Validating... (loss=2.19584):  69%|| 108/157 [00:37<00:16,  2.91it/s][A
Validating... (loss=1.95590):  69%|| 108/157 [00:38<00:16,  2.91it/s][A
Validating... (loss=1.95590):  69%|| 109/157 [00:38<00:16,  2.91it/s][A
Validating... (loss=2.05050):  69%|| 109/157 [00:38<00:16,  2.91it/s][A
Validating... (loss=2.05050):  70%|| 110/157 [00:38<00:16,  2.91it/s][A
Validating... (loss=1.98301):  70%|| 110/157 [00:38<00:16,  2.91it/s][A
Validating... (loss=1.98301):  71%|| 111/157 [00:38<00:15,  2.90it/s][A
Validating... (loss=1.77565):  71%|| 111/157 [00:39<00:15,  2.90it/s][A
Validating... (loss=1.77565):  71%|| 112/157 [00:39<00:15,  2.90it/s][A
Validating... (loss=2.07178):  71%|| 112/157 [00:39<00:15,  2.90it/s][A
Validating... (loss=2.07178):  72%|| 113/157 [00:39<00:15,  2.90it/s][A
Validating... (loss=1.69934):  72%|| 113/157 [00:39<00:15,  2.90it/s][A
Validating... (loss=1.69934):  73%|| 114/157 [00:39<00:14,  2.90it/s][A
Validating... (loss=1.88586):  73%|| 114/157 [00:40<00:14,  2.90it/s][A
Validating... (loss=1.88586):  73%|| 115/157 [00:40<00:14,  2.90it/s][A
Validating... (loss=2.05328):  73%|| 115/157 [00:40<00:14,  2.90it/s][A
Validating... (loss=2.05328):  74%|| 116/157 [00:40<00:14,  2.90it/s][A
Validating... (loss=1.68757):  74%|| 116/157 [00:40<00:14,  2.90it/s][A
Validating... (loss=1.68757):  75%|| 117/157 [00:40<00:13,  2.91it/s][A
Validating... (loss=1.92825):  75%|| 117/157 [00:41<00:13,  2.91it/s][A
Validating... (loss=1.92825):  75%|| 118/157 [00:41<00:13,  2.91it/s][A
Validating... (loss=1.70551):  75%|| 118/157 [00:41<00:13,  2.91it/s][A
Validating... (loss=1.70551):  76%|| 119/157 [00:41<00:13,  2.91it/s][A
Validating... (loss=1.73173):  76%|| 119/157 [00:41<00:13,  2.91it/s][A
Validating... (loss=1.73173):  76%|| 120/157 [00:41<00:12,  2.91it/s][A
Validating... (loss=1.95171):  76%|| 120/157 [00:42<00:12,  2.91it/s][A
Validating... (loss=1.95171):  77%|| 121/157 [00:42<00:12,  2.91it/s][A
Validating... (loss=1.92999):  77%|| 121/157 [00:42<00:12,  2.91it/s][A
Validating... (loss=1.92999):  78%|| 122/157 [00:42<00:12,  2.91it/s][A
Validating... (loss=2.10397):  78%|| 122/157 [00:42<00:12,  2.91it/s][A
Validating... (loss=2.10397):  78%|| 123/157 [00:42<00:11,  2.91it/s][A
Validating... (loss=1.86062):  78%|| 123/157 [00:43<00:11,  2.91it/s][A
Validating... (loss=1.86062):  79%|| 124/157 [00:43<00:11,  2.91it/s][A
Validating... (loss=2.04548):  79%|| 124/157 [00:43<00:11,  2.91it/s][A
Validating... (loss=2.04548):  80%|| 125/157 [00:43<00:11,  2.90it/s][A
Validating... (loss=1.93359):  80%|| 125/157 [00:44<00:11,  2.90it/s][A
Validating... (loss=1.93359):  80%|| 126/157 [00:44<00:10,  2.89it/s][A
Validating... (loss=1.98291):  80%|| 126/157 [00:44<00:10,  2.89it/s][A
Validating... (loss=1.98291):  81%|| 127/157 [00:44<00:10,  2.88it/s][A
Validating... (loss=1.79478):  81%|| 127/157 [00:44<00:10,  2.88it/s][A
Validating... (loss=1.79478):  82%|| 128/157 [00:44<00:10,  2.89it/s][A
Validating... (loss=2.06938):  82%|| 128/157 [00:45<00:10,  2.89it/s][A
Validating... (loss=2.06938):  82%|| 129/157 [00:45<00:09,  2.88it/s][A
Validating... (loss=2.15354):  82%|| 129/157 [00:45<00:09,  2.88it/s][A
Validating... (loss=2.15354):  83%|| 130/157 [00:45<00:09,  2.88it/s][A
Validating... (loss=1.97602):  83%|| 130/157 [00:45<00:09,  2.88it/s][A
Validating... (loss=1.97602):  83%|| 131/157 [00:45<00:09,  2.88it/s][A
Validating... (loss=1.82370):  83%|| 131/157 [00:46<00:09,  2.88it/s][A
Validating... (loss=1.82370):  84%|| 132/157 [00:46<00:08,  2.89it/s][A
Validating... (loss=2.01142):  84%|| 132/157 [00:46<00:08,  2.89it/s][A
Validating... (loss=2.01142):  85%|| 133/157 [00:46<00:08,  2.90it/s][A
Validating... (loss=1.92802):  85%|| 133/157 [00:46<00:08,  2.90it/s][A
Validating... (loss=1.92802):  85%|| 134/157 [00:46<00:07,  2.90it/s][A
Validating... (loss=1.86550):  85%|| 134/157 [00:47<00:07,  2.90it/s][A
Validating... (loss=1.86550):  86%|| 135/157 [00:47<00:07,  2.91it/s][A
Validating... (loss=1.96113):  86%|| 135/157 [00:47<00:07,  2.91it/s][A
Validating... (loss=1.96113):  87%|| 136/157 [00:47<00:07,  2.91it/s][A
Validating... (loss=1.88315):  87%|| 136/157 [00:47<00:07,  2.91it/s][A
Validating... (loss=1.88315):  87%|| 137/157 [00:47<00:06,  2.90it/s][A
Validating... (loss=1.94607):  87%|| 137/157 [00:48<00:06,  2.90it/s][A
Validating... (loss=1.94607):  88%|| 138/157 [00:48<00:06,  2.90it/s][A
Validating... (loss=1.94155):  88%|| 138/157 [00:48<00:06,  2.90it/s][A
Validating... (loss=1.94155):  89%|| 139/157 [00:48<00:06,  2.91it/s][A
Validating... (loss=1.82876):  89%|| 139/157 [00:48<00:06,  2.91it/s][A
Validating... (loss=1.82876):  89%|| 140/157 [00:48<00:05,  2.89it/s][A
Validating... (loss=1.78521):  89%|| 140/157 [00:49<00:05,  2.89it/s][A
Validating... (loss=1.78521):  90%|| 141/157 [00:49<00:05,  2.88it/s][A
Validating... (loss=2.00375):  90%|| 141/157 [00:49<00:05,  2.88it/s][A
Validating... (loss=2.00375):  90%|| 142/157 [00:49<00:05,  2.88it/s][A
Validating... (loss=2.02393):  90%|| 142/157 [00:49<00:05,  2.88it/s][A
Validating... (loss=2.02393):  91%|| 143/157 [00:49<00:04,  2.89it/s][A
Validating... (loss=1.78937):  91%|| 143/157 [00:50<00:04,  2.89it/s][A
Validating... (loss=1.78937):  92%|| 144/157 [00:50<00:04,  2.89it/s][A
Validating... (loss=1.65647):  92%|| 144/157 [00:50<00:04,  2.89it/s][A
Validating... (loss=1.65647):  92%|| 145/157 [00:50<00:04,  2.90it/s][A
Validating... (loss=2.06516):  92%|| 145/157 [00:50<00:04,  2.90it/s][A
Validating... (loss=2.06516):  93%|| 146/157 [00:50<00:03,  2.90it/s][A
Validating... (loss=1.99781):  93%|| 146/157 [00:51<00:03,  2.90it/s][A
Validating... (loss=1.99781):  94%|| 147/157 [00:51<00:03,  2.90it/s][A
Validating... (loss=1.96676):  94%|| 147/157 [00:51<00:03,  2.90it/s][A
Validating... (loss=1.96676):  94%|| 148/157 [00:51<00:03,  2.90it/s][A
Validating... (loss=1.91083):  94%|| 148/157 [00:51<00:03,  2.90it/s][A
Validating... (loss=1.91083):  95%|| 149/157 [00:51<00:02,  2.90it/s][A
Validating... (loss=1.88255):  95%|| 149/157 [00:52<00:02,  2.90it/s][A
Validating... (loss=1.88255):  96%|| 150/157 [00:52<00:02,  2.91it/s][A
Validating... (loss=1.64880):  96%|| 150/157 [00:52<00:02,  2.91it/s][A
Validating... (loss=1.64880):  96%|| 151/157 [00:52<00:02,  2.91it/s][A
Validating... (loss=1.93079):  96%|| 151/157 [00:52<00:02,  2.91it/s][A
Validating... (loss=1.93079):  97%|| 152/157 [00:52<00:01,  2.91it/s][A
Validating... (loss=1.98422):  97%|| 152/157 [00:53<00:01,  2.91it/s][A
Validating... (loss=1.98422):  97%|| 153/157 [00:53<00:01,  2.91it/s][A
Validating... (loss=1.88398):  97%|| 153/157 [00:53<00:01,  2.91it/s][A
Validating... (loss=1.88398):  98%|| 154/157 [00:53<00:01,  2.91it/s][A
Validating... (loss=1.93194):  98%|| 154/157 [00:54<00:01,  2.91it/s][A
Validating... (loss=1.93194):  99%|| 155/157 [00:54<00:00,  2.90it/s][A
Validating... (loss=2.04375):  99%|| 155/157 [00:54<00:00,  2.90it/s][A
Validating... (loss=2.04375):  99%|| 156/157 [00:54<00:00,  2.90it/s][A
Validating... (loss=1.72376):  99%|| 156/157 [00:54<00:00,  2.90it/s][A
Validating... (loss=1.72376): 100%|| 157/157 [00:54<00:00,  3.69it/s][AValidating... (loss=1.72376): 100%|| 157/157 [00:54<00:00,  2.87it/s]
09/24/2022 06:58:02 - INFO - __main__ - 

09/24/2022 06:58:02 - INFO - __main__ - Validation Results
09/24/2022 06:58:02 - INFO - __main__ - Global Steps: 400
09/24/2022 06:58:02 - INFO - __main__ - Valid Loss: 1.92188
09/24/2022 06:58:02 - INFO - __main__ - Valid Accuracy: 0.30510
09/24/2022 06:58:02 - INFO - __main__ - Saved model checkpoint to [DIR: output]
Training (400 / 500 Steps) (loss=2.09766):  51%|| 400/782 [10:43<1:52:14, 17.63s/it]Training (401 / 500 Steps) (loss=2.08984):  51%|| 400/782 [10:44<1:52:14, 17.63s/it]Training (401 / 500 Steps) (loss=2.08984):  51%|| 401/782 [10:44<1:20:22, 12.66s/it]Training (402 / 500 Steps) (loss=2.09570):  51%|| 401/782 [10:45<1:20:22, 12.66s/it]Training (402 / 500 Steps) (loss=2.09570):  51%|| 402/782 [10:45<58:05,  9.17s/it]  Training (403 / 500 Steps) (loss=2.12109):  51%|| 402/782 [10:46<58:05,  9.17s/it]Training (403 / 500 Steps) (loss=2.12109):  52%|| 403/782 [10:46<42:31,  6.73s/it]Training (404 / 500 Steps) (loss=2.04297):  52%|| 403/782 [10:47<42:31,  6.73s/it]Training (404 / 500 Steps) (loss=2.04297):  52%|| 404/782 [10:47<31:38,  5.02s/it]Training (405 / 500 Steps) (loss=1.91406):  52%|| 404/782 [10:48<31:38,  5.02s/it]Training (405 / 500 Steps) (loss=1.91406):  52%|| 405/782 [10:48<24:02,  3.83s/it]Training (406 / 500 Steps) (loss=2.07422):  52%|| 405/782 [10:50<24:02,  3.83s/it]Training (406 / 500 Steps) (loss=2.07422):  52%|| 406/782 [10:50<18:43,  2.99s/it]Training (407 / 500 Steps) (loss=2.04492):  52%|| 406/782 [10:51<18:43,  2.99s/it]Training (407 / 500 Steps) (loss=2.04492):  52%|| 407/782 [10:51<15:01,  2.40s/it]Training (408 / 500 Steps) (loss=2.16406):  52%|| 407/782 [10:52<15:01,  2.40s/it]Training (408 / 500 Steps) (loss=2.16406):  52%|| 408/782 [10:52<12:24,  1.99s/it]Training (409 / 500 Steps) (loss=1.74219):  52%|| 408/782 [10:53<12:24,  1.99s/it]Training (409 / 500 Steps) (loss=1.74219):  52%|| 409/782 [10:53<10:35,  1.70s/it]Training (410 / 500 Steps) (loss=2.06250):  52%|| 409/782 [10:54<10:35,  1.70s/it]Training (410 / 500 Steps) (loss=2.06250):  52%|| 410/782 [10:54<09:18,  1.50s/it]Training (411 / 500 Steps) (loss=2.01758):  52%|| 410/782 [10:55<09:18,  1.50s/it]Training (411 / 500 Steps) (loss=2.01758):  53%|| 411/782 [10:55<08:24,  1.36s/it]Training (412 / 500 Steps) (loss=1.98242):  53%|| 411/782 [10:56<08:24,  1.36s/it]Training (412 / 500 Steps) (loss=1.98242):  53%|| 412/782 [10:56<07:46,  1.26s/it]Training (413 / 500 Steps) (loss=1.91309):  53%|| 412/782 [10:57<07:46,  1.26s/it]Training (413 / 500 Steps) (loss=1.91309):  53%|| 413/782 [10:57<07:19,  1.19s/it]Training (414 / 500 Steps) (loss=1.99316):  53%|| 413/782 [10:58<07:19,  1.19s/it]Training (414 / 500 Steps) (loss=1.99316):  53%|| 414/782 [10:58<07:00,  1.14s/it]Training (415 / 500 Steps) (loss=2.01367):  53%|| 414/782 [10:59<07:00,  1.14s/it]Training (415 / 500 Steps) (loss=2.01367):  53%|| 415/782 [10:59<06:47,  1.11s/it]Training (416 / 500 Steps) (loss=1.97461):  53%|| 415/782 [11:00<06:47,  1.11s/it]Training (416 / 500 Steps) (loss=1.97461):  53%|| 416/782 [11:00<06:36,  1.08s/it]Training (417 / 500 Steps) (loss=1.72754):  53%|| 416/782 [11:01<06:36,  1.08s/it]Training (417 / 500 Steps) (loss=1.72754):  53%|| 417/782 [11:01<06:30,  1.07s/it]Training (418 / 500 Steps) (loss=1.92383):  53%|| 417/782 [11:02<06:30,  1.07s/it]Training (418 / 500 Steps) (loss=1.92383):  53%|| 418/782 [11:02<06:24,  1.06s/it]Training (419 / 500 Steps) (loss=2.13477):  53%|| 418/782 [11:03<06:24,  1.06s/it]Training (419 / 500 Steps) (loss=2.13477):  54%|| 419/782 [11:03<06:20,  1.05s/it]Training (420 / 500 Steps) (loss=1.99609):  54%|| 419/782 [11:04<06:20,  1.05s/it]Training (420 / 500 Steps) (loss=1.99609):  54%|| 420/782 [11:04<06:17,  1.04s/it]Training (421 / 500 Steps) (loss=2.22461):  54%|| 420/782 [11:05<06:17,  1.04s/it]Training (421 / 500 Steps) (loss=2.22461):  54%|| 421/782 [11:05<06:15,  1.04s/it]Training (422 / 500 Steps) (loss=1.95410):  54%|| 421/782 [11:06<06:15,  1.04s/it]Training (422 / 500 Steps) (loss=1.95410):  54%|| 422/782 [11:06<06:13,  1.04s/it]Training (423 / 500 Steps) (loss=2.05469):  54%|| 422/782 [11:07<06:13,  1.04s/it]Training (423 / 500 Steps) (loss=2.05469):  54%|| 423/782 [11:07<06:11,  1.03s/it]Training (424 / 500 Steps) (loss=1.92578):  54%|| 423/782 [11:08<06:11,  1.03s/it]Training (424 / 500 Steps) (loss=1.92578):  54%|| 424/782 [11:08<06:10,  1.04s/it]Training (425 / 500 Steps) (loss=1.91113):  54%|| 424/782 [11:09<06:10,  1.04s/it]Training (425 / 500 Steps) (loss=1.91113):  54%|| 425/782 [11:09<06:09,  1.04s/it]Training (426 / 500 Steps) (loss=1.84473):  54%|| 425/782 [11:10<06:09,  1.04s/it]Training (426 / 500 Steps) (loss=1.84473):  54%|| 426/782 [11:10<06:07,  1.03s/it]Training (427 / 500 Steps) (loss=2.08984):  54%|| 426/782 [11:11<06:07,  1.03s/it]Training (427 / 500 Steps) (loss=2.08984):  55%|| 427/782 [11:11<06:06,  1.03s/it]Training (428 / 500 Steps) (loss=2.10352):  55%|| 427/782 [11:12<06:06,  1.03s/it]Training (428 / 500 Steps) (loss=2.10352):  55%|| 428/782 [11:12<06:05,  1.03s/it]Training (429 / 500 Steps) (loss=1.96973):  55%|| 428/782 [11:13<06:05,  1.03s/it]Training (429 / 500 Steps) (loss=1.96973):  55%|| 429/782 [11:13<06:04,  1.03s/it]Training (430 / 500 Steps) (loss=1.79492):  55%|| 429/782 [11:14<06:04,  1.03s/it]Training (430 / 500 Steps) (loss=1.79492):  55%|| 430/782 [11:14<06:03,  1.03s/it]Training (431 / 500 Steps) (loss=1.96973):  55%|| 430/782 [11:15<06:03,  1.03s/it]Training (431 / 500 Steps) (loss=1.96973):  55%|| 431/782 [11:15<06:02,  1.03s/it]Training (432 / 500 Steps) (loss=2.12500):  55%|| 431/782 [11:16<06:02,  1.03s/it]Training (432 / 500 Steps) (loss=2.12500):  55%|| 432/782 [11:16<06:01,  1.03s/it]Training (433 / 500 Steps) (loss=1.88965):  55%|| 432/782 [11:17<06:01,  1.03s/it]Training (433 / 500 Steps) (loss=1.88965):  55%|| 433/782 [11:17<05:59,  1.03s/it]Training (434 / 500 Steps) (loss=1.75586):  55%|| 433/782 [11:18<05:59,  1.03s/it]Training (434 / 500 Steps) (loss=1.75586):  55%|| 434/782 [11:18<05:58,  1.03s/it]Training (435 / 500 Steps) (loss=1.99609):  55%|| 434/782 [11:19<05:58,  1.03s/it]Training (435 / 500 Steps) (loss=1.99609):  56%|| 435/782 [11:19<05:57,  1.03s/it]Training (436 / 500 Steps) (loss=1.70117):  56%|| 435/782 [11:20<05:57,  1.03s/it]Training (436 / 500 Steps) (loss=1.70117):  56%|| 436/782 [11:20<05:56,  1.03s/it]Training (437 / 500 Steps) (loss=1.85645):  56%|| 436/782 [11:21<05:56,  1.03s/it]Training (437 / 500 Steps) (loss=1.85645):  56%|| 437/782 [11:21<05:55,  1.03s/it]Training (438 / 500 Steps) (loss=1.91211):  56%|| 437/782 [11:22<05:55,  1.03s/it]Training (438 / 500 Steps) (loss=1.91211):  56%|| 438/782 [11:22<05:54,  1.03s/it]Training (439 / 500 Steps) (loss=1.97363):  56%|| 438/782 [11:24<05:54,  1.03s/it]Training (439 / 500 Steps) (loss=1.97363):  56%|| 439/782 [11:24<05:53,  1.03s/it]Training (440 / 500 Steps) (loss=1.79102):  56%|| 439/782 [11:25<05:53,  1.03s/it]Training (440 / 500 Steps) (loss=1.79102):  56%|| 440/782 [11:25<05:52,  1.03s/it]Training (441 / 500 Steps) (loss=1.92480):  56%|| 440/782 [11:26<05:52,  1.03s/it]Training (441 / 500 Steps) (loss=1.92480):  56%|| 441/782 [11:26<05:50,  1.03s/it]Training (442 / 500 Steps) (loss=2.07812):  56%|| 441/782 [11:27<05:50,  1.03s/it]Training (442 / 500 Steps) (loss=2.07812):  57%|| 442/782 [11:27<05:49,  1.03s/it]Training (443 / 500 Steps) (loss=2.17188):  57%|| 442/782 [11:28<05:49,  1.03s/it]Training (443 / 500 Steps) (loss=2.17188):  57%|| 443/782 [11:28<05:49,  1.03s/it]Training (444 / 500 Steps) (loss=2.03711):  57%|| 443/782 [11:29<05:49,  1.03s/it]Training (444 / 500 Steps) (loss=2.03711):  57%|| 444/782 [11:29<05:48,  1.03s/it]Training (445 / 500 Steps) (loss=1.85352):  57%|| 444/782 [11:30<05:48,  1.03s/it]Training (445 / 500 Steps) (loss=1.85352):  57%|| 445/782 [11:30<05:46,  1.03s/it]Training (446 / 500 Steps) (loss=1.91895):  57%|| 445/782 [11:31<05:46,  1.03s/it]Training (446 / 500 Steps) (loss=1.91895):  57%|| 446/782 [11:31<05:45,  1.03s/it]Training (447 / 500 Steps) (loss=2.11133):  57%|| 446/782 [11:32<05:45,  1.03s/it]Training (447 / 500 Steps) (loss=2.11133):  57%|| 447/782 [11:32<05:44,  1.03s/it]Training (448 / 500 Steps) (loss=2.04492):  57%|| 447/782 [11:33<05:44,  1.03s/it]Training (448 / 500 Steps) (loss=2.04492):  57%|| 448/782 [11:33<05:43,  1.03s/it]Training (449 / 500 Steps) (loss=2.09766):  57%|| 448/782 [11:34<05:43,  1.03s/it]Training (449 / 500 Steps) (loss=2.09766):  57%|| 449/782 [11:34<05:42,  1.03s/it]Training (450 / 500 Steps) (loss=2.05469):  57%|| 449/782 [11:35<05:42,  1.03s/it]Training (450 / 500 Steps) (loss=2.05469):  58%|| 450/782 [11:35<05:41,  1.03s/it]Training (451 / 500 Steps) (loss=1.75000):  58%|| 450/782 [11:36<05:41,  1.03s/it]Training (451 / 500 Steps) (loss=1.75000):  58%|| 451/782 [11:36<05:39,  1.03s/it]Training (452 / 500 Steps) (loss=1.87988):  58%|| 451/782 [11:37<05:39,  1.03s/it]Training (452 / 500 Steps) (loss=1.87988):  58%|| 452/782 [11:37<05:39,  1.03s/it]Training (453 / 500 Steps) (loss=2.07812):  58%|| 452/782 [11:38<05:39,  1.03s/it]Training (453 / 500 Steps) (loss=2.07812):  58%|| 453/782 [11:38<05:38,  1.03s/it]Training (454 / 500 Steps) (loss=2.24219):  58%|| 453/782 [11:39<05:38,  1.03s/it]Training (454 / 500 Steps) (loss=2.24219):  58%|| 454/782 [11:39<05:37,  1.03s/it]Training (455 / 500 Steps) (loss=1.94336):  58%|| 454/782 [11:40<05:37,  1.03s/it]Training (455 / 500 Steps) (loss=1.94336):  58%|| 455/782 [11:40<05:36,  1.03s/it]Training (456 / 500 Steps) (loss=1.77344):  58%|| 455/782 [11:41<05:36,  1.03s/it]Training (456 / 500 Steps) (loss=1.77344):  58%|| 456/782 [11:41<05:35,  1.03s/it]Training (457 / 500 Steps) (loss=1.96680):  58%|| 456/782 [11:42<05:35,  1.03s/it]Training (457 / 500 Steps) (loss=1.96680):  58%|| 457/782 [11:42<05:34,  1.03s/it]Training (458 / 500 Steps) (loss=1.91797):  58%|| 457/782 [11:43<05:34,  1.03s/it]Training (458 / 500 Steps) (loss=1.91797):  59%|| 458/782 [11:43<05:33,  1.03s/it]Training (459 / 500 Steps) (loss=1.91797):  59%|| 458/782 [11:44<05:33,  1.03s/it]Training (459 / 500 Steps) (loss=1.91797):  59%|| 459/782 [11:44<05:32,  1.03s/it]Training (460 / 500 Steps) (loss=1.91406):  59%|| 459/782 [11:45<05:32,  1.03s/it]Training (460 / 500 Steps) (loss=1.91406):  59%|| 460/782 [11:45<05:32,  1.03s/it]Training (461 / 500 Steps) (loss=1.79395):  59%|| 460/782 [11:46<05:32,  1.03s/it]Training (461 / 500 Steps) (loss=1.79395):  59%|| 461/782 [11:46<05:30,  1.03s/it]Training (462 / 500 Steps) (loss=2.16211):  59%|| 461/782 [11:47<05:30,  1.03s/it]Training (462 / 500 Steps) (loss=2.16211):  59%|| 462/782 [11:47<05:30,  1.03s/it]Training (463 / 500 Steps) (loss=1.89160):  59%|| 462/782 [11:48<05:30,  1.03s/it]Training (463 / 500 Steps) (loss=1.89160):  59%|| 463/782 [11:48<05:28,  1.03s/it]Training (464 / 500 Steps) (loss=1.99805):  59%|| 463/782 [11:49<05:28,  1.03s/it]Training (464 / 500 Steps) (loss=1.99805):  59%|| 464/782 [11:49<05:27,  1.03s/it]Training (465 / 500 Steps) (loss=2.02734):  59%|| 464/782 [11:50<05:27,  1.03s/it]Training (465 / 500 Steps) (loss=2.02734):  59%|| 465/782 [11:50<05:26,  1.03s/it]Training (466 / 500 Steps) (loss=2.07617):  59%|| 465/782 [11:51<05:26,  1.03s/it]Training (466 / 500 Steps) (loss=2.07617):  60%|| 466/782 [11:51<05:25,  1.03s/it]Training (467 / 500 Steps) (loss=1.85840):  60%|| 466/782 [11:52<05:25,  1.03s/it]Training (467 / 500 Steps) (loss=1.85840):  60%|| 467/782 [11:52<05:23,  1.03s/it]Training (468 / 500 Steps) (loss=2.17383):  60%|| 467/782 [11:53<05:23,  1.03s/it]Training (468 / 500 Steps) (loss=2.17383):  60%|| 468/782 [11:53<05:22,  1.03s/it]Training (469 / 500 Steps) (loss=2.04297):  60%|| 468/782 [11:54<05:22,  1.03s/it]Training (469 / 500 Steps) (loss=2.04297):  60%|| 469/782 [11:54<05:24,  1.04s/it]Training (470 / 500 Steps) (loss=1.94043):  60%|| 469/782 [11:55<05:24,  1.04s/it]Training (470 / 500 Steps) (loss=1.94043):  60%|| 470/782 [11:55<05:23,  1.04s/it]Training (471 / 500 Steps) (loss=1.98926):  60%|| 470/782 [11:56<05:23,  1.04s/it]Training (471 / 500 Steps) (loss=1.98926):  60%|| 471/782 [11:56<05:21,  1.03s/it]Training (472 / 500 Steps) (loss=1.84277):  60%|| 471/782 [11:57<05:21,  1.03s/it]Training (472 / 500 Steps) (loss=1.84277):  60%|| 472/782 [11:57<05:19,  1.03s/it]Training (473 / 500 Steps) (loss=1.90039):  60%|| 472/782 [11:59<05:19,  1.03s/it]Training (473 / 500 Steps) (loss=1.90039):  60%|| 473/782 [11:59<05:17,  1.03s/it]Training (474 / 500 Steps) (loss=2.14648):  60%|| 473/782 [12:00<05:17,  1.03s/it]Training (474 / 500 Steps) (loss=2.14648):  61%|| 474/782 [12:00<05:16,  1.03s/it]Training (475 / 500 Steps) (loss=2.03516):  61%|| 474/782 [12:01<05:16,  1.03s/it]Training (475 / 500 Steps) (loss=2.03516):  61%|| 475/782 [12:01<05:15,  1.03s/it]Training (476 / 500 Steps) (loss=2.06641):  61%|| 475/782 [12:02<05:15,  1.03s/it]Training (476 / 500 Steps) (loss=2.06641):  61%|| 476/782 [12:02<05:14,  1.03s/it]Training (477 / 500 Steps) (loss=1.85449):  61%|| 476/782 [12:03<05:14,  1.03s/it]Training (477 / 500 Steps) (loss=1.85449):  61%|| 477/782 [12:03<05:13,  1.03s/it]Training (478 / 500 Steps) (loss=2.21875):  61%|| 477/782 [12:04<05:13,  1.03s/it]Training (478 / 500 Steps) (loss=2.21875):  61%|| 478/782 [12:04<05:11,  1.03s/it]Training (479 / 500 Steps) (loss=2.07227):  61%|| 478/782 [12:05<05:11,  1.03s/it]Training (479 / 500 Steps) (loss=2.07227):  61%|| 479/782 [12:05<05:11,  1.03s/it]Training (480 / 500 Steps) (loss=2.01953):  61%|| 479/782 [12:06<05:11,  1.03s/it]Training (480 / 500 Steps) (loss=2.01953):  61%|| 480/782 [12:06<05:10,  1.03s/it]Training (481 / 500 Steps) (loss=2.23242):  61%|| 480/782 [12:07<05:10,  1.03s/it]Training (481 / 500 Steps) (loss=2.23242):  62%|| 481/782 [12:07<05:09,  1.03s/it]Training (482 / 500 Steps) (loss=2.16211):  62%|| 481/782 [12:08<05:09,  1.03s/it]Training (482 / 500 Steps) (loss=2.16211):  62%|| 482/782 [12:08<05:07,  1.03s/it]Training (483 / 500 Steps) (loss=1.80273):  62%|| 482/782 [12:09<05:07,  1.03s/it]Training (483 / 500 Steps) (loss=1.80273):  62%|| 483/782 [12:09<05:07,  1.03s/it]Training (484 / 500 Steps) (loss=2.33789):  62%|| 483/782 [12:10<05:07,  1.03s/it]Training (484 / 500 Steps) (loss=2.33789):  62%|| 484/782 [12:10<05:06,  1.03s/it]Training (485 / 500 Steps) (loss=1.88574):  62%|| 484/782 [12:11<05:06,  1.03s/it]Training (485 / 500 Steps) (loss=1.88574):  62%|| 485/782 [12:11<05:05,  1.03s/it]Training (486 / 500 Steps) (loss=1.97949):  62%|| 485/782 [12:12<05:05,  1.03s/it]Training (486 / 500 Steps) (loss=1.97949):  62%|| 486/782 [12:12<05:04,  1.03s/it]Training (487 / 500 Steps) (loss=2.06445):  62%|| 486/782 [12:13<05:04,  1.03s/it]Training (487 / 500 Steps) (loss=2.06445):  62%|| 487/782 [12:13<05:03,  1.03s/it]Training (488 / 500 Steps) (loss=1.83594):  62%|| 487/782 [12:14<05:03,  1.03s/it]Training (488 / 500 Steps) (loss=1.83594):  62%|| 488/782 [12:14<05:02,  1.03s/it]Training (489 / 500 Steps) (loss=1.99023):  62%|| 488/782 [12:15<05:02,  1.03s/it]Training (489 / 500 Steps) (loss=1.99023):  63%|| 489/782 [12:15<05:01,  1.03s/it]Training (490 / 500 Steps) (loss=1.96484):  63%|| 489/782 [12:16<05:01,  1.03s/it]Training (490 / 500 Steps) (loss=1.96484):  63%|| 490/782 [12:16<05:00,  1.03s/it]Training (491 / 500 Steps) (loss=1.96094):  63%|| 490/782 [12:17<05:00,  1.03s/it]Training (491 / 500 Steps) (loss=1.96094):  63%|| 491/782 [12:17<04:59,  1.03s/it]Training (492 / 500 Steps) (loss=2.02148):  63%|| 491/782 [12:18<04:59,  1.03s/it]Training (492 / 500 Steps) (loss=2.02148):  63%|| 492/782 [12:18<04:58,  1.03s/it]Training (493 / 500 Steps) (loss=1.82422):  63%|| 492/782 [12:19<04:58,  1.03s/it]Training (493 / 500 Steps) (loss=1.82422):  63%|| 493/782 [12:19<04:58,  1.03s/it]Training (494 / 500 Steps) (loss=2.03906):  63%|| 493/782 [12:20<04:58,  1.03s/it]Training (494 / 500 Steps) (loss=2.03906):  63%|| 494/782 [12:20<04:58,  1.04s/it]Training (495 / 500 Steps) (loss=2.17383):  63%|| 494/782 [12:21<04:58,  1.04s/it]Training (495 / 500 Steps) (loss=2.17383):  63%|| 495/782 [12:21<04:57,  1.04s/it]Training (496 / 500 Steps) (loss=2.04297):  63%|| 495/782 [12:22<04:57,  1.04s/it]Training (496 / 500 Steps) (loss=2.04297):  63%|| 496/782 [12:22<04:56,  1.04s/it]Training (497 / 500 Steps) (loss=2.11133):  63%|| 496/782 [12:23<04:56,  1.04s/it]Training (497 / 500 Steps) (loss=2.11133):  64%|| 497/782 [12:23<04:55,  1.04s/it]Training (498 / 500 Steps) (loss=2.03711):  64%|| 497/782 [12:24<04:55,  1.04s/it]Training (498 / 500 Steps) (loss=2.03711):  64%|| 498/782 [12:24<04:54,  1.04s/it]Training (499 / 500 Steps) (loss=2.16992):  64%|| 498/782 [12:25<04:54,  1.04s/it]Training (499 / 500 Steps) (loss=2.16992):  64%|| 499/782 [12:25<04:52,  1.03s/it]Training (500 / 500 Steps) (loss=2.03320):  64%|| 499/782 [12:26<04:52,  1.03s/it]09/24/2022 06:59:45 - INFO - __main__ - ***** Running Validation *****
09/24/2022 06:59:45 - INFO - __main__ -   Num steps = 157
09/24/2022 06:59:45 - INFO - __main__ -   Batch size = 64

Validating... (loss=X.X):   0%|| 0/157 [00:00<?, ?it/s][A
Validating... (loss=2.05569):   0%|| 0/157 [00:01<?, ?it/s][A
Validating... (loss=2.05569):   1%|| 1/157 [00:01<02:53,  1.11s/it][A
Validating... (loss=1.94369):   1%|| 1/157 [00:01<02:53,  1.11s/it][A
Validating... (loss=1.94369):   1%|| 2/157 [00:01<01:42,  1.52it/s][A
Validating... (loss=2.24532):   1%|| 2/157 [00:01<01:42,  1.52it/s][A
Validating... (loss=2.24532):   2%|| 3/157 [00:01<01:19,  1.94it/s][A
Validating... (loss=2.19488):   2%|| 3/157 [00:02<01:19,  1.94it/s][A
Validating... (loss=2.19488):   3%|| 4/157 [00:02<01:08,  2.24it/s][A
Validating... (loss=1.87466):   3%|| 4/157 [00:02<01:08,  2.24it/s][A
Validating... (loss=1.87466):   3%|| 5/157 [00:02<01:02,  2.43it/s][A
Validating... (loss=2.25224):   3%|| 5/157 [00:02<01:02,  2.43it/s][A
Validating... (loss=2.25224):   4%|| 6/157 [00:02<00:58,  2.57it/s][A
Validating... (loss=2.11578):   4%|| 6/157 [00:03<00:58,  2.57it/s][A
Validating... (loss=2.11578):   4%|| 7/157 [00:03<00:56,  2.66it/s][A
Validating... (loss=2.17625):   4%|| 7/157 [00:03<00:56,  2.66it/s][A
Validating... (loss=2.17625):   5%|| 8/157 [00:03<00:54,  2.74it/s][A
Validating... (loss=1.94427):   5%|| 8/157 [00:03<00:54,  2.74it/s][A
Validating... (loss=1.94427):   6%|| 9/157 [00:03<00:53,  2.79it/s][A
Validating... (loss=2.11672):   6%|| 9/157 [00:04<00:53,  2.79it/s][A
Validating... (loss=2.11672):   6%|| 10/157 [00:04<00:52,  2.83it/s][A
Validating... (loss=2.35568):   6%|| 10/157 [00:04<00:52,  2.83it/s][A
Validating... (loss=2.35568):   7%|| 11/157 [00:04<00:51,  2.85it/s][A
Validating... (loss=2.19740):   7%|| 11/157 [00:04<00:51,  2.85it/s][A
Validating... (loss=2.19740):   8%|| 12/157 [00:04<00:50,  2.87it/s][A
Validating... (loss=1.96923):   8%|| 12/157 [00:05<00:50,  2.87it/s][A
Validating... (loss=1.96923):   8%|| 13/157 [00:05<00:49,  2.89it/s][A
Validating... (loss=1.76101):   8%|| 13/157 [00:05<00:49,  2.89it/s][A
Validating... (loss=1.76101):   9%|| 14/157 [00:05<00:49,  2.90it/s][A
Validating... (loss=2.03658):   9%|| 14/157 [00:05<00:49,  2.90it/s][A
Validating... (loss=2.03658):  10%|| 15/157 [00:05<00:49,  2.89it/s][A
Validating... (loss=1.98934):  10%|| 15/157 [00:06<00:49,  2.89it/s][A
Validating... (loss=1.98934):  10%|| 16/157 [00:06<00:48,  2.90it/s][A
Validating... (loss=2.06342):  10%|| 16/157 [00:06<00:48,  2.90it/s][A
Validating... (loss=2.06342):  11%|| 17/157 [00:06<00:48,  2.90it/s][A
Validating... (loss=1.92657):  11%|| 17/157 [00:06<00:48,  2.90it/s][A
Validating... (loss=1.92657):  11%|| 18/157 [00:06<00:47,  2.91it/s][A
Validating... (loss=2.08491):  11%|| 18/157 [00:07<00:47,  2.91it/s][A
Validating... (loss=2.08491):  12%|| 19/157 [00:07<00:47,  2.91it/s][A
Validating... (loss=2.25140):  12%|| 19/157 [00:07<00:47,  2.91it/s][A
Validating... (loss=2.25140):  13%|| 20/157 [00:07<00:47,  2.91it/s][A
Validating... (loss=2.04480):  13%|| 20/157 [00:07<00:47,  2.91it/s][A
Validating... (loss=2.04480):  13%|| 21/157 [00:07<00:46,  2.91it/s][A
Validating... (loss=2.01145):  13%|| 21/157 [00:08<00:46,  2.91it/s][A
Validating... (loss=2.01145):  14%|| 22/157 [00:08<00:46,  2.91it/s][A
Validating... (loss=2.02168):  14%|| 22/157 [00:08<00:46,  2.91it/s][A
Validating... (loss=2.02168):  15%|| 23/157 [00:08<00:45,  2.91it/s][A
Validating... (loss=1.98965):  15%|| 23/157 [00:09<00:45,  2.91it/s][A
Validating... (loss=1.98965):  15%|| 24/157 [00:09<00:45,  2.91it/s][A
Validating... (loss=1.93596):  15%|| 24/157 [00:09<00:45,  2.91it/s][A
Validating... (loss=1.93596):  16%|| 25/157 [00:09<00:45,  2.91it/s][A
Validating... (loss=2.32526):  16%|| 25/157 [00:09<00:45,  2.91it/s][A
Validating... (loss=2.32526):  17%|| 26/157 [00:09<00:44,  2.91it/s][A
Validating... (loss=2.02125):  17%|| 26/157 [00:10<00:44,  2.91it/s][A
Validating... (loss=2.02125):  17%|| 27/157 [00:10<00:44,  2.92it/s][A
Validating... (loss=1.78286):  17%|| 27/157 [00:10<00:44,  2.92it/s][A
Validating... (loss=1.78286):  18%|| 28/157 [00:10<00:44,  2.92it/s][A
Validating... (loss=2.30610):  18%|| 28/157 [00:10<00:44,  2.92it/s][A
Validating... (loss=2.30610):  18%|| 29/157 [00:10<00:43,  2.91it/s][A
Validating... (loss=2.22749):  18%|| 29/157 [00:11<00:43,  2.91it/s][A
Validating... (loss=2.22749):  19%|| 30/157 [00:11<00:43,  2.91it/s][A
Validating... (loss=1.92897):  19%|| 30/157 [00:11<00:43,  2.91it/s][A
Validating... (loss=1.92897):  20%|| 31/157 [00:11<00:43,  2.91it/s][A
Validating... (loss=1.95611):  20%|| 31/157 [00:11<00:43,  2.91it/s][A
Validating... (loss=1.95611):  20%|| 32/157 [00:11<00:42,  2.91it/s][A
Validating... (loss=1.79802):  20%|| 32/157 [00:12<00:42,  2.91it/s][A
Validating... (loss=1.79802):  21%|| 33/157 [00:12<00:42,  2.91it/s][A
Validating... (loss=1.95744):  21%|| 33/157 [00:12<00:42,  2.91it/s][A
Validating... (loss=1.95744):  22%|| 34/157 [00:12<00:42,  2.91it/s][A
Validating... (loss=2.14172):  22%|| 34/157 [00:12<00:42,  2.91it/s][A
Validating... (loss=2.14172):  22%|| 35/157 [00:12<00:41,  2.91it/s][A
Validating... (loss=2.17983):  22%|| 35/157 [00:13<00:41,  2.91it/s][A
Validating... (loss=2.17983):  23%|| 36/157 [00:13<00:41,  2.91it/s][A
Validating... (loss=1.79212):  23%|| 36/157 [00:13<00:41,  2.91it/s][A
Validating... (loss=1.79212):  24%|| 37/157 [00:13<00:41,  2.91it/s][A
Validating... (loss=2.02733):  24%|| 37/157 [00:13<00:41,  2.91it/s][A
Validating... (loss=2.02733):  24%|| 38/157 [00:13<00:40,  2.91it/s][A
Validating... (loss=1.97080):  24%|| 38/157 [00:14<00:40,  2.91it/s][A
Validating... (loss=1.97080):  25%|| 39/157 [00:14<00:40,  2.91it/s][A
Validating... (loss=2.45826):  25%|| 39/157 [00:14<00:40,  2.91it/s][A
Validating... (loss=2.45826):  25%|| 40/157 [00:14<00:40,  2.91it/s][A
Validating... (loss=2.16141):  25%|| 40/157 [00:14<00:40,  2.91it/s][A
Validating... (loss=2.16141):  26%|| 41/157 [00:14<00:39,  2.90it/s][A
Validating... (loss=1.93274):  26%|| 41/157 [00:15<00:39,  2.90it/s][A
Validating... (loss=1.93274):  27%|| 42/157 [00:15<00:39,  2.90it/s][A
Validating... (loss=2.06655):  27%|| 42/157 [00:15<00:39,  2.90it/s][A
Validating... (loss=2.06655):  27%|| 43/157 [00:15<00:39,  2.91it/s][A
Validating... (loss=2.13755):  27%|| 43/157 [00:15<00:39,  2.91it/s][A
Validating... (loss=2.13755):  28%|| 44/157 [00:15<00:38,  2.91it/s][A
Validating... (loss=2.22072):  28%|| 44/157 [00:16<00:38,  2.91it/s][A
Validating... (loss=2.22072):  29%|| 45/157 [00:16<00:38,  2.91it/s][A
Validating... (loss=2.05313):  29%|| 45/157 [00:16<00:38,  2.91it/s][A
Validating... (loss=2.05313):  29%|| 46/157 [00:16<00:38,  2.91it/s][A
Validating... (loss=1.91426):  29%|| 46/157 [00:16<00:38,  2.91it/s][A
Validating... (loss=1.91426):  30%|| 47/157 [00:16<00:37,  2.91it/s][A
Validating... (loss=1.95548):  30%|| 47/157 [00:17<00:37,  2.91it/s][A
Validating... (loss=1.95548):  31%|| 48/157 [00:17<00:37,  2.91it/s][A
Validating... (loss=2.14639):  31%|| 48/157 [00:17<00:37,  2.91it/s][A
Validating... (loss=2.14639):  31%|| 49/157 [00:17<00:37,  2.91it/s][A
Validating... (loss=2.10473):  31%|| 49/157 [00:17<00:37,  2.91it/s][A
Validating... (loss=2.10473):  32%|| 50/157 [00:17<00:36,  2.91it/s][A
Validating... (loss=2.36650):  32%|| 50/157 [00:18<00:36,  2.91it/s][A
Validating... (loss=2.36650):  32%|| 51/157 [00:18<00:36,  2.91it/s][A
Validating... (loss=2.01676):  32%|| 51/157 [00:18<00:36,  2.91it/s][A
Validating... (loss=2.01676):  33%|| 52/157 [00:18<00:36,  2.92it/s][A
Validating... (loss=1.95872):  33%|| 52/157 [00:18<00:36,  2.92it/s][A
Validating... (loss=1.95872):  34%|| 53/157 [00:18<00:35,  2.92it/s][A
Validating... (loss=2.05838):  34%|| 53/157 [00:19<00:35,  2.92it/s][A
Validating... (loss=2.05838):  34%|| 54/157 [00:19<00:35,  2.92it/s][A
Validating... (loss=2.13753):  34%|| 54/157 [00:19<00:35,  2.92it/s][A
Validating... (loss=2.13753):  35%|| 55/157 [00:19<00:34,  2.92it/s][A
Validating... (loss=1.96856):  35%|| 55/157 [00:20<00:34,  2.92it/s][A
Validating... (loss=1.96856):  36%|| 56/157 [00:20<00:34,  2.92it/s][A
Validating... (loss=2.09427):  36%|| 56/157 [00:20<00:34,  2.92it/s][A
Validating... (loss=2.09427):  36%|| 57/157 [00:20<00:34,  2.91it/s][A
Validating... (loss=2.06841):  36%|| 57/157 [00:20<00:34,  2.91it/s][A
Validating... (loss=2.06841):  37%|| 58/157 [00:20<00:33,  2.91it/s][A
Validating... (loss=1.97958):  37%|| 58/157 [00:21<00:33,  2.91it/s][A
Validating... (loss=1.97958):  38%|| 59/157 [00:21<00:33,  2.91it/s][A
Validating... (loss=2.01617):  38%|| 59/157 [00:21<00:33,  2.91it/s][A
Validating... (loss=2.01617):  38%|| 60/157 [00:21<00:33,  2.91it/s][A
Validating... (loss=2.08021):  38%|| 60/157 [00:21<00:33,  2.91it/s][A
Validating... (loss=2.08021):  39%|| 61/157 [00:21<00:32,  2.91it/s][A
Validating... (loss=2.02984):  39%|| 61/157 [00:22<00:32,  2.91it/s][A
Validating... (loss=2.02984):  39%|| 62/157 [00:22<00:32,  2.91it/s][A
Validating... (loss=2.12623):  39%|| 62/157 [00:22<00:32,  2.91it/s][A
Validating... (loss=2.12623):  40%|| 63/157 [00:22<00:32,  2.91it/s][A
Validating... (loss=1.94287):  40%|| 63/157 [00:22<00:32,  2.91it/s][A
Validating... (loss=1.94287):  41%|| 64/157 [00:22<00:31,  2.92it/s][A
Validating... (loss=2.12358):  41%|| 64/157 [00:23<00:31,  2.92it/s][A
Validating... (loss=2.12358):  41%|| 65/157 [00:23<00:31,  2.91it/s][A
Validating... (loss=1.97077):  41%|| 65/157 [00:23<00:31,  2.91it/s][A
Validating... (loss=1.97077):  42%|| 66/157 [00:23<00:31,  2.90it/s][A
Validating... (loss=2.02034):  42%|| 66/157 [00:23<00:31,  2.90it/s][A
Validating... (loss=2.02034):  43%|| 67/157 [00:23<00:30,  2.90it/s][A
Validating... (loss=2.17933):  43%|| 67/157 [00:24<00:30,  2.90it/s][A
Validating... (loss=2.17933):  43%|| 68/157 [00:24<00:30,  2.91it/s][A
Validating... (loss=2.01356):  43%|| 68/157 [00:24<00:30,  2.91it/s][A
Validating... (loss=2.01356):  44%|| 69/157 [00:24<00:30,  2.89it/s][A
Validating... (loss=1.87919):  44%|| 69/157 [00:24<00:30,  2.89it/s][A
Validating... (loss=1.87919):  45%|| 70/157 [00:24<00:30,  2.90it/s][A
Validating... (loss=2.27651):  45%|| 70/157 [00:25<00:30,  2.90it/s][A
Validating... (loss=2.27651):  45%|| 71/157 [00:25<00:29,  2.90it/s][A
Validating... (loss=2.20480):  45%|| 71/157 [00:25<00:29,  2.90it/s][A
Validating... (loss=2.20480):  46%|| 72/157 [00:25<00:29,  2.91it/s][A
Validating... (loss=1.90011):  46%|| 72/157 [00:25<00:29,  2.91it/s][A
Validating... (loss=1.90011):  46%|| 73/157 [00:25<00:28,  2.91it/s][A
Validating... (loss=2.13935):  46%|| 73/157 [00:26<00:28,  2.91it/s][A
Validating... (loss=2.13935):  47%|| 74/157 [00:26<00:28,  2.91it/s][A
Validating... (loss=2.24325):  47%|| 74/157 [00:26<00:28,  2.91it/s][A
Validating... (loss=2.24325):  48%|| 75/157 [00:26<00:28,  2.91it/s][A
Validating... (loss=1.82556):  48%|| 75/157 [00:26<00:28,  2.91it/s][A
Validating... (loss=1.82556):  48%|| 76/157 [00:26<00:27,  2.90it/s][A
Validating... (loss=1.95928):  48%|| 76/157 [00:27<00:27,  2.90it/s][A
Validating... (loss=1.95928):  49%|| 77/157 [00:27<00:27,  2.91it/s][A
Validating... (loss=1.96477):  49%|| 77/157 [00:27<00:27,  2.91it/s][A
Validating... (loss=1.96477):  50%|| 78/157 [00:27<00:27,  2.91it/s][A
Validating... (loss=1.91553):  50%|| 78/157 [00:27<00:27,  2.91it/s][A
Validating... (loss=1.91553):  50%|| 79/157 [00:27<00:26,  2.91it/s][A
Validating... (loss=1.92907):  50%|| 79/157 [00:28<00:26,  2.91it/s][A
Validating... (loss=1.92907):  51%|| 80/157 [00:28<00:26,  2.91it/s][A
Validating... (loss=2.08524):  51%|| 80/157 [00:28<00:26,  2.91it/s][A
Validating... (loss=2.08524):  52%|| 81/157 [00:28<00:26,  2.91it/s][A
Validating... (loss=2.09459):  52%|| 81/157 [00:28<00:26,  2.91it/s][A
Validating... (loss=2.09459):  52%|| 82/157 [00:28<00:25,  2.91it/s][A
Validating... (loss=1.93050):  52%|| 82/157 [00:29<00:25,  2.91it/s][A
Validating... (loss=1.93050):  53%|| 83/157 [00:29<00:25,  2.91it/s][A
Validating... (loss=2.02513):  53%|| 83/157 [00:29<00:25,  2.91it/s][A
Validating... (loss=2.02513):  54%|| 84/157 [00:29<00:25,  2.91it/s][A
Validating... (loss=2.11047):  54%|| 84/157 [00:29<00:25,  2.91it/s][A
Validating... (loss=2.11047):  54%|| 85/157 [00:29<00:24,  2.91it/s][A
Validating... (loss=2.01247):  54%|| 85/157 [00:30<00:24,  2.91it/s][A
Validating... (loss=2.01247):  55%|| 86/157 [00:30<00:24,  2.92it/s][A
Validating... (loss=2.19537):  55%|| 86/157 [00:30<00:24,  2.92it/s][A
Validating... (loss=2.19537):  55%|| 87/157 [00:30<00:24,  2.92it/s][A
Validating... (loss=2.19425):  55%|| 87/157 [00:31<00:24,  2.92it/s][A
Validating... (loss=2.19425):  56%|| 88/157 [00:31<00:23,  2.92it/s][A
Validating... (loss=2.04178):  56%|| 88/157 [00:31<00:23,  2.92it/s][A
Validating... (loss=2.04178):  57%|| 89/157 [00:31<00:23,  2.92it/s][A
Validating... (loss=1.73375):  57%|| 89/157 [00:31<00:23,  2.92it/s][A
Validating... (loss=1.73375):  57%|| 90/157 [00:31<00:22,  2.91it/s][A
Validating... (loss=1.86609):  57%|| 90/157 [00:32<00:22,  2.91it/s][A
Validating... (loss=1.86609):  58%|| 91/157 [00:32<00:22,  2.91it/s][A
Validating... (loss=2.06384):  58%|| 91/157 [00:32<00:22,  2.91it/s][A
Validating... (loss=2.06384):  59%|| 92/157 [00:32<00:22,  2.91it/s][A
Validating... (loss=2.25567):  59%|| 92/157 [00:32<00:22,  2.91it/s][A
Validating... (loss=2.25567):  59%|| 93/157 [00:32<00:21,  2.91it/s][A
Validating... (loss=2.33389):  59%|| 93/157 [00:33<00:21,  2.91it/s][A
Validating... (loss=2.33389):  60%|| 94/157 [00:33<00:21,  2.91it/s][A
Validating... (loss=2.00375):  60%|| 94/157 [00:33<00:21,  2.91it/s][A
Validating... (loss=2.00375):  61%|| 95/157 [00:33<00:21,  2.91it/s][A
Validating... (loss=2.13298):  61%|| 95/157 [00:33<00:21,  2.91it/s][A
Validating... (loss=2.13298):  61%|| 96/157 [00:33<00:20,  2.91it/s][A
Validating... (loss=2.22993):  61%|| 96/157 [00:34<00:20,  2.91it/s][A
Validating... (loss=2.22993):  62%|| 97/157 [00:34<00:20,  2.91it/s][A
Validating... (loss=2.01530):  62%|| 97/157 [00:34<00:20,  2.91it/s][A
Validating... (loss=2.01530):  62%|| 98/157 [00:34<00:20,  2.91it/s][A
Validating... (loss=1.93413):  62%|| 98/157 [00:34<00:20,  2.91it/s][A
Validating... (loss=1.93413):  63%|| 99/157 [00:34<00:19,  2.91it/s][A
Validating... (loss=2.05774):  63%|| 99/157 [00:35<00:19,  2.91it/s][A
Validating... (loss=2.05774):  64%|| 100/157 [00:35<00:19,  2.91it/s][A
Validating... (loss=2.13310):  64%|| 100/157 [00:35<00:19,  2.91it/s][A
Validating... (loss=2.13310):  64%|| 101/157 [00:35<00:19,  2.91it/s][A
Validating... (loss=2.16274):  64%|| 101/157 [00:35<00:19,  2.91it/s][A
Validating... (loss=2.16274):  65%|| 102/157 [00:35<00:18,  2.91it/s][A
Validating... (loss=2.06519):  65%|| 102/157 [00:36<00:18,  2.91it/s][A
Validating... (loss=2.06519):  66%|| 103/157 [00:36<00:18,  2.91it/s][A
Validating... (loss=1.92753):  66%|| 103/157 [00:36<00:18,  2.91it/s][A
Validating... (loss=1.92753):  66%|| 104/157 [00:36<00:18,  2.90it/s][A
Validating... (loss=2.06042):  66%|| 104/157 [00:36<00:18,  2.90it/s][A
Validating... (loss=2.06042):  67%|| 105/157 [00:36<00:17,  2.90it/s][A
Validating... (loss=2.07327):  67%|| 105/157 [00:37<00:17,  2.90it/s][A
Validating... (loss=2.07327):  68%|| 106/157 [00:37<00:17,  2.90it/s][A
Validating... (loss=1.95506):  68%|| 106/157 [00:37<00:17,  2.90it/s][A
Validating... (loss=1.95506):  68%|| 107/157 [00:37<00:17,  2.90it/s][A
Validating... (loss=2.08141):  68%|| 107/157 [00:37<00:17,  2.90it/s][A
Validating... (loss=2.08141):  69%|| 108/157 [00:37<00:16,  2.90it/s][A
Validating... (loss=2.30547):  69%|| 108/157 [00:38<00:16,  2.90it/s][A
Validating... (loss=2.30547):  69%|| 109/157 [00:38<00:16,  2.91it/s][A
Validating... (loss=2.09048):  69%|| 109/157 [00:38<00:16,  2.91it/s][A
Validating... (loss=2.09048):  70%|| 110/157 [00:38<00:16,  2.91it/s][A
Validating... (loss=2.10938):  70%|| 110/157 [00:38<00:16,  2.91it/s][A
Validating... (loss=2.10938):  71%|| 111/157 [00:38<00:15,  2.91it/s][A
Validating... (loss=1.85466):  71%|| 111/157 [00:39<00:15,  2.91it/s][A
Validating... (loss=1.85466):  71%|| 112/157 [00:39<00:15,  2.91it/s][A
Validating... (loss=2.10530):  71%|| 112/157 [00:39<00:15,  2.91it/s][A
Validating... (loss=2.10530):  72%|| 113/157 [00:39<00:15,  2.91it/s][A
Validating... (loss=1.85773):  72%|| 113/157 [00:39<00:15,  2.91it/s][A
Validating... (loss=1.85773):  73%|| 114/157 [00:39<00:14,  2.90it/s][A
Validating... (loss=2.02928):  73%|| 114/157 [00:40<00:14,  2.90it/s][A
Validating... (loss=2.02928):  73%|| 115/157 [00:40<00:14,  2.87it/s][A
Validating... (loss=2.21910):  73%|| 115/157 [00:40<00:14,  2.87it/s][A
Validating... (loss=2.21910):  74%|| 116/157 [00:40<00:14,  2.88it/s][A
Validating... (loss=1.85150):  74%|| 116/157 [00:40<00:14,  2.88it/s][A
Validating... (loss=1.85150):  75%|| 117/157 [00:40<00:13,  2.89it/s][A
Validating... (loss=2.08164):  75%|| 117/157 [00:41<00:13,  2.89it/s][A
Validating... (loss=2.08164):  75%|| 118/157 [00:41<00:13,  2.90it/s][A
Validating... (loss=1.92736):  75%|| 118/157 [00:41<00:13,  2.90it/s][A
Validating... (loss=1.92736):  76%|| 119/157 [00:41<00:13,  2.90it/s][A
Validating... (loss=1.93972):  76%|| 119/157 [00:42<00:13,  2.90it/s][A
Validating... (loss=1.93972):  76%|| 120/157 [00:42<00:12,  2.90it/s][A
Validating... (loss=1.86211):  76%|| 120/157 [00:42<00:12,  2.90it/s][A
Validating... (loss=1.86211):  77%|| 121/157 [00:42<00:12,  2.90it/s][A
Validating... (loss=2.06160):  77%|| 121/157 [00:42<00:12,  2.90it/s][A
Validating... (loss=2.06160):  78%|| 122/157 [00:42<00:12,  2.90it/s][A
Validating... (loss=1.91126):  78%|| 122/157 [00:43<00:12,  2.90it/s][A
Validating... (loss=1.91126):  78%|| 123/157 [00:43<00:11,  2.90it/s][A
Validating... (loss=1.89623):  78%|| 123/157 [00:43<00:11,  2.90it/s][A
Validating... (loss=1.89623):  79%|| 124/157 [00:43<00:11,  2.91it/s][A
Validating... (loss=2.03738):  79%|| 124/157 [00:43<00:11,  2.91it/s][A
Validating... (loss=2.03738):  80%|| 125/157 [00:43<00:11,  2.91it/s][A
Validating... (loss=2.01298):  80%|| 125/157 [00:44<00:11,  2.91it/s][A
Validating... (loss=2.01298):  80%|| 126/157 [00:44<00:10,  2.91it/s][A
Validating... (loss=2.20404):  80%|| 126/157 [00:44<00:10,  2.91it/s][A
Validating... (loss=2.20404):  81%|| 127/157 [00:44<00:10,  2.91it/s][A
Validating... (loss=2.22790):  81%|| 127/157 [00:44<00:10,  2.91it/s][A
Validating... (loss=2.22790):  82%|| 128/157 [00:44<00:09,  2.91it/s][A
Validating... (loss=2.12878):  82%|| 128/157 [00:45<00:09,  2.91it/s][A
Validating... (loss=2.12878):  82%|| 129/157 [00:45<00:09,  2.91it/s][A
Validating... (loss=2.38742):  82%|| 129/157 [00:45<00:09,  2.91it/s][A
Validating... (loss=2.38742):  83%|| 130/157 [00:45<00:09,  2.91it/s][A
Validating... (loss=2.14786):  83%|| 130/157 [00:45<00:09,  2.91it/s][A
Validating... (loss=2.14786):  83%|| 131/157 [00:45<00:08,  2.91it/s][A
Validating... (loss=2.00310):  83%|| 131/157 [00:46<00:08,  2.91it/s][A
Validating... (loss=2.00310):  84%|| 132/157 [00:46<00:08,  2.91it/s][A
Validating... (loss=2.14461):  84%|| 132/157 [00:46<00:08,  2.91it/s][A
Validating... (loss=2.14461):  85%|| 133/157 [00:46<00:08,  2.91it/s][A
Validating... (loss=2.14072):  85%|| 133/157 [00:46<00:08,  2.91it/s][A
Validating... (loss=2.14072):  85%|| 134/157 [00:46<00:07,  2.91it/s][A
Validating... (loss=1.99503):  85%|| 134/157 [00:47<00:07,  2.91it/s][A
Validating... (loss=1.99503):  86%|| 135/157 [00:47<00:07,  2.91it/s][A
Validating... (loss=2.13306):  86%|| 135/157 [00:47<00:07,  2.91it/s][A
Validating... (loss=2.13306):  87%|| 136/157 [00:47<00:07,  2.90it/s][A
Validating... (loss=1.95612):  87%|| 136/157 [00:47<00:07,  2.90it/s][A
Validating... (loss=1.95612):  87%|| 137/157 [00:47<00:06,  2.89it/s][A
Validating... (loss=2.08841):  87%|| 137/157 [00:48<00:06,  2.89it/s][A
Validating... (loss=2.08841):  88%|| 138/157 [00:48<00:06,  2.89it/s][A
Validating... (loss=2.32335):  88%|| 138/157 [00:48<00:06,  2.89it/s][A
Validating... (loss=2.32335):  89%|| 139/157 [00:48<00:06,  2.90it/s][A
Validating... (loss=1.93984):  89%|| 139/157 [00:48<00:06,  2.90it/s][A
Validating... (loss=1.93984):  89%|| 140/157 [00:48<00:05,  2.90it/s][A
Validating... (loss=1.98782):  89%|| 140/157 [00:49<00:05,  2.90it/s][A
Validating... (loss=1.98782):  90%|| 141/157 [00:49<00:05,  2.91it/s][A
Validating... (loss=2.05141):  90%|| 141/157 [00:49<00:05,  2.91it/s][A
Validating... (loss=2.05141):  90%|| 142/157 [00:49<00:05,  2.91it/s][A
Validating... (loss=2.21259):  90%|| 142/157 [00:49<00:05,  2.91it/s][A
Validating... (loss=2.21259):  91%|| 143/157 [00:49<00:04,  2.91it/s][A
Validating... (loss=1.94736):  91%|| 143/157 [00:50<00:04,  2.91it/s][A
Validating... (loss=1.94736):  92%|| 144/157 [00:50<00:04,  2.91it/s][A
Validating... (loss=1.95922):  92%|| 144/157 [00:50<00:04,  2.91it/s][A
Validating... (loss=1.95922):  92%|| 145/157 [00:50<00:04,  2.91it/s][A
Validating... (loss=2.29274):  92%|| 145/157 [00:50<00:04,  2.91it/s][A
Validating... (loss=2.29274):  93%|| 146/157 [00:50<00:03,  2.91it/s][A
Validating... (loss=2.18492):  93%|| 146/157 [00:51<00:03,  2.91it/s][A
Validating... (loss=2.18492):  94%|| 147/157 [00:51<00:03,  2.91it/s][A
Validating... (loss=1.96734):  94%|| 147/157 [00:51<00:03,  2.91it/s][A
Validating... (loss=1.96734):  94%|| 148/157 [00:51<00:03,  2.91it/s][A
Validating... (loss=2.08096):  94%|| 148/157 [00:51<00:03,  2.91it/s][A
Validating... (loss=2.08096):  95%|| 149/157 [00:51<00:02,  2.91it/s][A
Validating... (loss=1.92911):  95%|| 149/157 [00:52<00:02,  2.91it/s][A
Validating... (loss=1.92911):  96%|| 150/157 [00:52<00:02,  2.91it/s][A
Validating... (loss=1.87986):  96%|| 150/157 [00:52<00:02,  2.91it/s][A
Validating... (loss=1.87986):  96%|| 151/157 [00:52<00:02,  2.91it/s][A
Validating... (loss=2.10819):  96%|| 151/157 [00:53<00:02,  2.91it/s][A
Validating... (loss=2.10819):  97%|| 152/157 [00:53<00:01,  2.91it/s][A
Validating... (loss=2.12720):  97%|| 152/157 [00:53<00:01,  2.91it/s][A
Validating... (loss=2.12720):  97%|| 153/157 [00:53<00:01,  2.91it/s][A
Validating... (loss=1.88312):  97%|| 153/157 [00:53<00:01,  2.91it/s][A
Validating... (loss=1.88312):  98%|| 154/157 [00:53<00:01,  2.91it/s][A
Validating... (loss=2.15071):  98%|| 154/157 [00:54<00:01,  2.91it/s][A
Validating... (loss=2.15071):  99%|| 155/157 [00:54<00:00,  2.91it/s][A
Validating... (loss=1.99220):  99%|| 155/157 [00:54<00:00,  2.91it/s][A
Validating... (loss=1.99220):  99%|| 156/157 [00:54<00:00,  2.91it/s][A
Validating... (loss=1.85309):  99%|| 156/157 [00:54<00:00,  2.91it/s][A
Validating... (loss=1.85309): 100%|| 157/157 [00:54<00:00,  3.70it/s][AValidating... (loss=1.85309): 100%|| 157/157 [00:54<00:00,  2.87it/s]
09/24/2022 07:00:40 - INFO - __main__ - 

09/24/2022 07:00:40 - INFO - __main__ - Validation Results
09/24/2022 07:00:40 - INFO - __main__ - Global Steps: 500
09/24/2022 07:00:40 - INFO - __main__ - Valid Loss: 2.05650
09/24/2022 07:00:40 - INFO - __main__ - Valid Accuracy: 0.26670
Training (500 / 500 Steps) (loss=2.03320):  64%|| 499/782 [13:21<07:34,  1.61s/it]
09/24/2022 07:00:40 - INFO - __main__ - Best Accuracy: 	0.305100
09/24/2022 07:00:40 - INFO - __main__ - End Training!
I0924 07:00:40.947602  2355 ProcessGroupNCCL.cpp:603] [Rank 0] NCCL watchdog thread terminated normally
/usr/local/lib/python3.7/site-packages/torch/distributed/launch.py:186: FutureWarning: The module torch.distributed.launch is deprecated
and will be removed in future. Use torchrun.
Note that --use_env is set by default in torchrun.
If your script expects `--local_rank` argument to be set, please
change it to read from `os.environ['LOCAL_RANK']` instead. See 
https://pytorch.org/docs/stable/distributed.html#launch-utility for 
further instructions

  FutureWarning,