WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.787012 20351 ProcessGroupNCCL.cpp:835] [Rank 0] NCCL watchdog thread started! I1109 17:32:11.786959 18664 ProcessGroupNCCL.cpp:669] [Rank 0] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.787282 20352 ProcessGroupNCCL.cpp:835] [Rank 3] NCCL watchdog thread started! I1109 17:32:11.787258 18666 ProcessGroupNCCL.cpp:669] [Rank 3] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.787432 20353 ProcessGroupNCCL.cpp:835] [Rank 1] NCCL watchdog thread started! I1109 17:32:11.787400 18663 ProcessGroupNCCL.cpp:669] [Rank 1] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.787524 18665 ProcessGroupNCCL.cpp:669] [Rank 2] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.787559 20354 ProcessGroupNCCL.cpp:835] [Rank 2] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.788462 32398 ProcessGroupNCCL.cpp:669] [Rank 65] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.788563 1315 ProcessGroupNCCL.cpp:835] [Rank 65] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.788479 32396 ProcessGroupNCCL.cpp:669] [Rank 64] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.788592 1316 ProcessGroupNCCL.cpp:835] [Rank 64] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.788831 1317 ProcessGroupNCCL.cpp:835] [Rank 66] NCCL watchdog thread started! I1109 17:32:11.788806 32395 ProcessGroupNCCL.cpp:669] [Rank 66] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.789428 32397 ProcessGroupNCCL.cpp:669] [Rank 67] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.789516 1318 ProcessGroupNCCL.cpp:835] [Rank 67] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.835148 1946 ProcessGroupNCCL.cpp:835] [Rank 47] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.836906 1944 ProcessGroupNCCL.cpp:835] [Rank 46] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.837581 1945 ProcessGroupNCCL.cpp:835] [Rank 45] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.837880 1943 ProcessGroupNCCL.cpp:835] [Rank 44] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.862900 28961 ProcessGroupNCCL.cpp:835] [Rank 18] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.860137 8802 ProcessGroupNCCL.cpp:835] [Rank 89] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.864642 28963 ProcessGroupNCCL.cpp:835] [Rank 19] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.864675 28962 ProcessGroupNCCL.cpp:835] [Rank 16] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.864917 28960 ProcessGroupNCCL.cpp:835] [Rank 17] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.862298 8800 ProcessGroupNCCL.cpp:835] [Rank 88] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.867502 8889 ProcessGroupNCCL.cpp:835] [Rank 35] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.867841 1166 ProcessGroupNCCL.cpp:835] [Rank 94] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.867995 1164 ProcessGroupNCCL.cpp:835] [Rank 92] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.872861 5798 ProcessGroupNCCL.cpp:835] [Rank 63] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.865708 21966 ProcessGroupNCCL.cpp:835] [Rank 84] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.872879 5796 ProcessGroupNCCL.cpp:835] [Rank 61] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.865746 21964 ProcessGroupNCCL.cpp:835] [Rank 86] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.868957 1167 ProcessGroupNCCL.cpp:835] [Rank 95] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.869498 8891 ProcessGroupNCCL.cpp:835] [Rank 32] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.866041 21965 ProcessGroupNCCL.cpp:835] [Rank 85] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.866421 16145 ProcessGroupNCCL.cpp:835] [Rank 72] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.867938 29324 ProcessGroupNCCL.cpp:835] [Rank 39] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.866178 21963 ProcessGroupNCCL.cpp:835] [Rank 87] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.873348 5797 ProcessGroupNCCL.cpp:835] [Rank 60] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.873979 5186 ProcessGroupNCCL.cpp:835] [Rank 22] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.869545 1165 ProcessGroupNCCL.cpp:835] [Rank 93] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.873389 18354 ProcessGroupNCCL.cpp:835] [Rank 50] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.874648 20008 ProcessGroupNCCL.cpp:835] [Rank 12] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.868005 16147 ProcessGroupNCCL.cpp:835] [Rank 73] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.871151 8890 ProcessGroupNCCL.cpp:835] [Rank 34] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.872207 11736 ProcessGroupNCCL.cpp:835] [Rank 83] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.874883 18352 ProcessGroupNCCL.cpp:835] [Rank 49] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.875619 5185 ProcessGroupNCCL.cpp:835] [Rank 20] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.875175 5795 ProcessGroupNCCL.cpp:835] [Rank 62] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.875759 5187 ProcessGroupNCCL.cpp:835] [Rank 21] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.875882 27599 ProcessGroupNCCL.cpp:835] [Rank 24] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.875978 27598 ProcessGroupNCCL.cpp:835] [Rank 26] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.875635 18353 ProcessGroupNCCL.cpp:835] [Rank 48] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.870266 28543 ProcessGroupNCCL.cpp:835] [Rank 71] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.876502 27600 ProcessGroupNCCL.cpp:835] [Rank 27] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.869139 8801 ProcessGroupNCCL.cpp:835] [Rank 91] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.876945 27597 ProcessGroupNCCL.cpp:835] [Rank 25] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.876405 18355 ProcessGroupNCCL.cpp:835] [Rank 51] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.877225 5188 ProcessGroupNCCL.cpp:835] [Rank 23] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.869225 28416 ProcessGroupNCCL.cpp:835] [Rank 4] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.869176 12770 ProcessGroupNCCL.cpp:835] [Rank 76] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.877326 9214 ProcessGroupNCCL.cpp:835] [Rank 28] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.877411 9212 ProcessGroupNCCL.cpp:835] [Rank 31] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.875149 11735 ProcessGroupNCCL.cpp:835] [Rank 80] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.877018 21465 ProcessGroupNCCL.cpp:835] [Rank 57] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.875082 17487 ProcessGroupNCCL.cpp:835] [Rank 11] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.870350 12771 ProcessGroupNCCL.cpp:835] [Rank 79] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.878412 9213 ProcessGroupNCCL.cpp:835] [Rank 30] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.870505 12772 ProcessGroupNCCL.cpp:835] [Rank 77] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.877517 21464 ProcessGroupNCCL.cpp:835] [Rank 59] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.871263 28415 ProcessGroupNCCL.cpp:835] [Rank 5] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.876204 11733 ProcessGroupNCCL.cpp:835] [Rank 82] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.879371 20006 ProcessGroupNCCL.cpp:835] [Rank 15] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.878505 21466 ProcessGroupNCCL.cpp:835] [Rank 58] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.873036 16146 ProcessGroupNCCL.cpp:835] [Rank 74] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.873725 8799 ProcessGroupNCCL.cpp:835] [Rank 90] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.875123 28542 ProcessGroupNCCL.cpp:835] [Rank 70] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.878775 17488 ProcessGroupNCCL.cpp:835] [Rank 10] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.876260 29322 ProcessGroupNCCL.cpp:835] [Rank 37] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.879299 17486 ProcessGroupNCCL.cpp:835] [Rank 9] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.879406 11734 ProcessGroupNCCL.cpp:835] [Rank 81] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.874640 28417 ProcessGroupNCCL.cpp:835] [Rank 7] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.883296 20007 ProcessGroupNCCL.cpp:835] [Rank 14] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.882755 3911 ProcessGroupNCCL.cpp:835] [Rank 41] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.877713 16144 ProcessGroupNCCL.cpp:835] [Rank 75] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.877140 12769 ProcessGroupNCCL.cpp:835] [Rank 78] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.880501 29323 ProcessGroupNCCL.cpp:835] [Rank 38] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.881523 28541 ProcessGroupNCCL.cpp:835] [Rank 69] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.884120 8888 ProcessGroupNCCL.cpp:835] [Rank 33] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.888684 9211 ProcessGroupNCCL.cpp:835] [Rank 29] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.885823 29321 ProcessGroupNCCL.cpp:835] [Rank 36] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.883777 28414 ProcessGroupNCCL.cpp:835] [Rank 6] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.890960 3910 ProcessGroupNCCL.cpp:835] [Rank 40] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.886875 28540 ProcessGroupNCCL.cpp:835] [Rank 68] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.896919 3912 ProcessGroupNCCL.cpp:835] [Rank 43] NCCL watchdog thread started! I1109 17:32:11.894495 32369 ProcessGroupNCCL.cpp:669] [Rank 93] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.899181 3627 ProcessGroupNCCL.cpp:669] [Rank 23] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.891537 20870 ProcessGroupNCCL.cpp:669] [Rank 84] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.899199 3630 ProcessGroupNCCL.cpp:669] [Rank 22] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.891541 20872 ProcessGroupNCCL.cpp:669] [Rank 86] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.894497 32370 ProcessGroupNCCL.cpp:669] [Rank 92] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.899215 3629 ProcessGroupNCCL.cpp:669] [Rank 21] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.891561 20873 ProcessGroupNCCL.cpp:669] [Rank 85] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.894515 32368 ProcessGroupNCCL.cpp:669] [Rank 95] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.899230 3628 ProcessGroupNCCL.cpp:669] [Rank 20] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.891572 20871 ProcessGroupNCCL.cpp:669] [Rank 87] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.894526 32367 ProcessGroupNCCL.cpp:669] [Rank 94] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.899583 4185 ProcessGroupNCCL.cpp:669] [Rank 62] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.899597 4186 ProcessGroupNCCL.cpp:669] [Rank 61] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.899607 4183 ProcessGroupNCCL.cpp:669] [Rank 63] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.899621 4184 ProcessGroupNCCL.cpp:669] [Rank 60] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.901499 3909 ProcessGroupNCCL.cpp:835] [Rank 42] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.903362 20005 ProcessGroupNCCL.cpp:835] [Rank 13] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.903832 21463 ProcessGroupNCCL.cpp:835] [Rank 56] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.902930 17485 ProcessGroupNCCL.cpp:835] [Rank 8] NCCL watchdog thread started! I1109 17:32:11.914777 16951 ProcessGroupNCCL.cpp:669] [Rank 50] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.914790 16953 ProcessGroupNCCL.cpp:669] [Rank 51] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.914803 16952 ProcessGroupNCCL.cpp:669] [Rank 48] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.914813 16954 ProcessGroupNCCL.cpp:669] [Rank 49] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.914288 8710 ProcessGroupNCCL.cpp:835] [Rank 54] NCCL watchdog thread started! I1109 17:32:11.924491 499 ProcessGroupNCCL.cpp:669] [Rank 44] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.924504 502 ProcessGroupNCCL.cpp:669] [Rank 47] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.924520 500 ProcessGroupNCCL.cpp:669] [Rank 45] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.924528 498 ProcessGroupNCCL.cpp:669] [Rank 46] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.917910 7394 ProcessGroupNCCL.cpp:669] [Rank 91] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.917922 7395 ProcessGroupNCCL.cpp:669] [Rank 89] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.917925 7397 ProcessGroupNCCL.cpp:669] [Rank 90] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.917932 7396 ProcessGroupNCCL.cpp:669] [Rank 88] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.918546 27304 ProcessGroupNCCL.cpp:669] [Rank 4] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.918557 27303 ProcessGroupNCCL.cpp:669] [Rank 5] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.920086 8707 ProcessGroupNCCL.cpp:835] [Rank 52] NCCL watchdog thread started! I1109 17:32:11.918655 27305 ProcessGroupNCCL.cpp:669] [Rank 7] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.918668 27302 ProcessGroupNCCL.cpp:669] [Rank 6] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.923264 27608 ProcessGroupNCCL.cpp:669] [Rank 18] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.923282 27607 ProcessGroupNCCL.cpp:669] [Rank 19] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.923296 27606 ProcessGroupNCCL.cpp:669] [Rank 16] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.923310 27605 ProcessGroupNCCL.cpp:669] [Rank 17] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.928817 26238 ProcessGroupNCCL.cpp:669] [Rank 24] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.928844 26237 ProcessGroupNCCL.cpp:669] [Rank 26] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.928853 26240 ProcessGroupNCCL.cpp:669] [Rank 27] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.928856 26239 ProcessGroupNCCL.cpp:669] [Rank 25] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.922752 8708 ProcessGroupNCCL.cpp:835] [Rank 53] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:32:11.923930 8709 ProcessGroupNCCL.cpp:835] [Rank 55] NCCL watchdog thread started! I1109 17:32:11.948721 14569 ProcessGroupNCCL.cpp:669] [Rank 74] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.948717 14567 ProcessGroupNCCL.cpp:669] [Rank 73] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.948745 14568 ProcessGroupNCCL.cpp:669] [Rank 72] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.948747 14570 ProcessGroupNCCL.cpp:669] [Rank 75] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.957391 7615 ProcessGroupNCCL.cpp:669] [Rank 55] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.957415 7612 ProcessGroupNCCL.cpp:669] [Rank 53] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.957425 7614 ProcessGroupNCCL.cpp:669] [Rank 52] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.957437 7613 ProcessGroupNCCL.cpp:669] [Rank 54] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.963528 16210 ProcessGroupNCCL.cpp:669] [Rank 11] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.963546 16211 ProcessGroupNCCL.cpp:669] [Rank 8] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.963562 16209 ProcessGroupNCCL.cpp:669] [Rank 10] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.963569 16208 ProcessGroupNCCL.cpp:669] [Rank 9] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.965626 20107 ProcessGroupNCCL.cpp:669] [Rank 58] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.965652 20109 ProcessGroupNCCL.cpp:669] [Rank 59] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.965667 20110 ProcessGroupNCCL.cpp:669] [Rank 57] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.965677 20108 ProcessGroupNCCL.cpp:669] [Rank 56] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.965902 7788 ProcessGroupNCCL.cpp:669] [Rank 35] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.965916 7789 ProcessGroupNCCL.cpp:669] [Rank 34] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.965929 7791 ProcessGroupNCCL.cpp:669] [Rank 32] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.965946 7790 ProcessGroupNCCL.cpp:669] [Rank 33] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.967525 10614 ProcessGroupNCCL.cpp:669] [Rank 81] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.971107 18587 ProcessGroupNCCL.cpp:669] [Rank 12] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.971107 18589 ProcessGroupNCCL.cpp:669] [Rank 15] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.971128 18586 ProcessGroupNCCL.cpp:669] [Rank 14] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.971133 18588 ProcessGroupNCCL.cpp:669] [Rank 13] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.966792 27455 ProcessGroupNCCL.cpp:669] [Rank 69] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.971231 2438 ProcessGroupNCCL.cpp:669] [Rank 40] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.970362 10615 ProcessGroupNCCL.cpp:669] [Rank 82] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.970520 10613 ProcessGroupNCCL.cpp:669] [Rank 80] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.968080 27454 ProcessGroupNCCL.cpp:669] [Rank 70] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.974279 2437 ProcessGroupNCCL.cpp:669] [Rank 41] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.973049 10612 ProcessGroupNCCL.cpp:669] [Rank 83] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.970870 27453 ProcessGroupNCCL.cpp:669] [Rank 68] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.971002 27452 ProcessGroupNCCL.cpp:669] [Rank 71] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.977105 2439 ProcessGroupNCCL.cpp:669] [Rank 42] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.977252 2440 ProcessGroupNCCL.cpp:669] [Rank 43] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.971793 11305 ProcessGroupNCCL.cpp:669] [Rank 79] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.972015 11304 ProcessGroupNCCL.cpp:669] [Rank 76] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.973215 11303 ProcessGroupNCCL.cpp:669] [Rank 78] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.979091 11306 ProcessGroupNCCL.cpp:669] [Rank 77] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.991712 27953 ProcessGroupNCCL.cpp:669] [Rank 36] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.997380 8125 ProcessGroupNCCL.cpp:669] [Rank 28] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.997388 8126 ProcessGroupNCCL.cpp:669] [Rank 29] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.991752 27952 ProcessGroupNCCL.cpp:669] [Rank 37] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.997402 8123 ProcessGroupNCCL.cpp:669] [Rank 31] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.991752 27955 ProcessGroupNCCL.cpp:669] [Rank 39] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.997414 8124 ProcessGroupNCCL.cpp:669] [Rank 30] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:32:11.991767 27954 ProcessGroupNCCL.cpp:669] [Rank 38] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. I1109 17:32:17.568461 18664 ProcessGroupNCCL.cpp:1274] NCCL_DEBUG: INFO Loading checkpoint shards: 0%| | 0/2 [00:00 โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โโ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โโ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 5%|โ–Œ | 21/420 [04:23<1:23:30, 12.56s/it]โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 5%|โ–Œ | 21/420 [04:23<1:23:30, 12.56s/it]โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 5%|โ–Œ | 21/420 [04:23<1:23:30, 12.56s/it]โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โโ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โโ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 5%|โ–Œ | 21/420 [04:23<1:23:30, 12.56s/it] 5%|โ–Œ | 21/420 [04:23<1:23:30, 12.56s/it]โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 5%|โ–Œ | 21/420 [04:23<1:23:30, 12.56s/it]โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 5%|โ–Œ | 21/420 [04:23<1:23:31, 12.56s/it]โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 5%|โ–Œ | 21/420 [04:23<1:23:31, 12.56s/it] 5%|โ–Œ | 21/420 [04:23<1:23:30, 12.56s/it]โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โโ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 5%|โ–Œ | 21/420 [04:23<1:23:31, 12.56s/it]โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 5%|โ–Œ | 21/420 [04:23<1:23:31, 12.56s/it]โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ 5%|โ–Œ | 21/420 [04:23<1:23:31, 12.56s/it]”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 5%|โ–Œ | 21/420 [04:23<1:23:32, 12.56s/it] 5%|โ–Œ | 21/420 [04:23<1:23:32, 12.56s/it] 5%|โ–Œ | 21/420 [04:23<1:23:32, 12.56s/it]โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 5%|โ–Œ | 21/420 [04:23<1:23:31, 12.56s/it] 5%|โ–Œ | 21/420 [04:23<1:23:32, 12.56s/it]โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 5%|โ–Œ | 21/420 [04:23<1:23:31, 12.56s/it] 5%|โ–Œ | 21/420 [04:23<1:23:32, 12.56s/it] 5%|โ–Œ | 21/420 [04:23<1:23:32, 12.56s/it] 5%|โ–Œ | 21/420 [04:23<1:23:33, 12.56s/it] 5%|โ–Œ | 21/420 [04:23<1:23:33, 12.56s/it] 5%|โ–Œ | 21/420 [04:23<1:23:33, 12.56s/it] 5%|โ–Œ | 21/420 [04:23<1:23:33, 12.56s/it]-------------------------------------------------------------------------- Primary job terminated normally, but 1 process returned a non-zero exit code. Per user-direction, the job has been aborted. -------------------------------------------------------------------------- -------------------------------------------------------------------------- mpirun detected that one or more processes exited with non-zero status, thus causing the job to be terminated. The first process to do so was: Process name: [[52229,1],33] Exit code: 1 --------------------------------------------------------------------------