WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.634884 316 ProcessGroupNCCL.cpp:835] [Rank 51] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.636107 314 ProcessGroupNCCL.cpp:835] [Rank 50] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.637125 313 ProcessGroupNCCL.cpp:835] [Rank 49] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.637635 315 ProcessGroupNCCL.cpp:835] [Rank 48] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.701238 28451 ProcessGroupNCCL.cpp:835] [Rank 43] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.702311 28454 ProcessGroupNCCL.cpp:835] [Rank 42] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.702343 28453 ProcessGroupNCCL.cpp:835] [Rank 40] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.702579 28452 ProcessGroupNCCL.cpp:835] [Rank 41] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.696049 29925 ProcessGroupNCCL.cpp:835] [Rank 29] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.696075 29926 ProcessGroupNCCL.cpp:835] [Rank 31] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.696539 29927 ProcessGroupNCCL.cpp:835] [Rank 28] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.696652 29928 ProcessGroupNCCL.cpp:835] [Rank 30] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.694564 21263 ProcessGroupNCCL.cpp:835] [Rank 90] NCCL watchdog thread started! I1109 17:19:25.698573 28932 ProcessGroupNCCL.cpp:669] [Rank 29] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.698594 28934 ProcessGroupNCCL.cpp:669] [Rank 31] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.698602 28930 ProcessGroupNCCL.cpp:669] [Rank 28] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.698621 28933 ProcessGroupNCCL.cpp:669] [Rank 30] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.696197 1770 ProcessGroupNCCL.cpp:835] [Rank 4] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.696228 1769 ProcessGroupNCCL.cpp:835] [Rank 5] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.696321 1771 ProcessGroupNCCL.cpp:835] [Rank 6] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.696352 1772 ProcessGroupNCCL.cpp:835] [Rank 7] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.695686 21264 ProcessGroupNCCL.cpp:835] [Rank 88] NCCL watchdog thread started! I1109 17:19:25.698832 1095 ProcessGroupNCCL.cpp:669] [Rank 4] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.698846 1097 ProcessGroupNCCL.cpp:669] [Rank 5] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.698870 1100 ProcessGroupNCCL.cpp:669] [Rank 6] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.698879 1101 ProcessGroupNCCL.cpp:669] [Rank 7] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.698160 21262 ProcessGroupNCCL.cpp:835] [Rank 89] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.698261 21261 ProcessGroupNCCL.cpp:835] [Rank 91] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.712224 18831 ProcessGroupNCCL.cpp:835] [Rank 21] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.697925 13107 ProcessGroupNCCL.cpp:835] [Rank 54] NCCL watchdog thread started! I1109 17:19:25.712168 17854 ProcessGroupNCCL.cpp:669] [Rank 21] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.712241 17852 ProcessGroupNCCL.cpp:669] [Rank 20] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.697975 13106 ProcessGroupNCCL.cpp:835] [Rank 55] NCCL watchdog thread started! I1109 17:19:25.712395 18832 ProcessGroupNCCL.cpp:835] [Rank 20] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.697989 13105 ProcessGroupNCCL.cpp:835] [Rank 52] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.712639 18833 ProcessGroupNCCL.cpp:835] [Rank 23] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.711086 19240 ProcessGroupNCCL.cpp:835] [Rank 59] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.698117 13104 ProcessGroupNCCL.cpp:835] [Rank 53] NCCL watchdog thread started! I1109 17:19:25.712625 17856 ProcessGroupNCCL.cpp:669] [Rank 23] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.711124 19241 ProcessGroupNCCL.cpp:835] [Rank 56] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.705397 29445 ProcessGroupNCCL.cpp:835] [Rank 82] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.712685 18834 ProcessGroupNCCL.cpp:835] [Rank 22] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.711171 19242 ProcessGroupNCCL.cpp:835] [Rank 57] NCCL watchdog thread started! I1109 17:19:25.712682 17855 ProcessGroupNCCL.cpp:669] [Rank 22] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.711387 19243 ProcessGroupNCCL.cpp:835] [Rank 58] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.705878 29444 ProcessGroupNCCL.cpp:835] [Rank 80] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.700208 19601 ProcessGroupNCCL.cpp:835] [Rank 45] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.702873 23814 ProcessGroupNCCL.cpp:835] [Rank 75] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.703265 23813 ProcessGroupNCCL.cpp:835] [Rank 72] NCCL watchdog thread started! I1109 17:19:25.713023 18592 ProcessGroupNCCL.cpp:669] [Rank 56] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.713052 18595 ProcessGroupNCCL.cpp:669] [Rank 58] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.713052 18594 ProcessGroupNCCL.cpp:669] [Rank 57] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.713088 18596 ProcessGroupNCCL.cpp:669] [Rank 59] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.701588 19602 ProcessGroupNCCL.cpp:835] [Rank 44] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.701682 19600 ProcessGroupNCCL.cpp:835] [Rank 47] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.701895 19599 ProcessGroupNCCL.cpp:835] [Rank 46] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.704396 23815 ProcessGroupNCCL.cpp:835] [Rank 74] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.704600 23812 ProcessGroupNCCL.cpp:835] [Rank 73] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.716840 1493 ProcessGroupNCCL.cpp:835] [Rank 19] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.709676 29443 ProcessGroupNCCL.cpp:835] [Rank 83] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.717368 1492 ProcessGroupNCCL.cpp:835] [Rank 17] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.717396 1490 ProcessGroupNCCL.cpp:835] [Rank 16] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.717446 1491 ProcessGroupNCCL.cpp:835] [Rank 18] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.714345 21425 ProcessGroupNCCL.cpp:835] [Rank 9] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.714781 21424 ProcessGroupNCCL.cpp:835] [Rank 10] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.690129 14391 ProcessGroupNCCL.cpp:835] [Rank 2] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.691341 14392 ProcessGroupNCCL.cpp:835] [Rank 1] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.697330 14389 ProcessGroupNCCL.cpp:835] [Rank 0] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.697657 14390 ProcessGroupNCCL.cpp:835] [Rank 3] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.719835 24903 ProcessGroupNCCL.cpp:835] [Rank 68] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.713358 31151 ProcessGroupNCCL.cpp:835] [Rank 87] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.720335 24901 ProcessGroupNCCL.cpp:835] [Rank 71] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.720355 24902 ProcessGroupNCCL.cpp:835] [Rank 70] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.714143 31152 ProcessGroupNCCL.cpp:835] [Rank 84] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.714625 31150 ProcessGroupNCCL.cpp:835] [Rank 85] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.715049 31149 ProcessGroupNCCL.cpp:835] [Rank 86] NCCL watchdog thread started! I1109 17:19:25.721676 23916 ProcessGroupNCCL.cpp:669] [Rank 68] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.721753 23920 ProcessGroupNCCL.cpp:669] [Rank 71] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.721765 23919 ProcessGroupNCCL.cpp:669] [Rank 70] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.723300 24900 ProcessGroupNCCL.cpp:835] [Rank 69] NCCL watchdog thread started! I1109 17:19:25.723286 23918 ProcessGroupNCCL.cpp:669] [Rank 69] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.712914 2138 ProcessGroupNCCL.cpp:835] [Rank 76] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.722712 21423 ProcessGroupNCCL.cpp:835] [Rank 8] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.714594 2139 ProcessGroupNCCL.cpp:835] [Rank 77] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.728610 21422 ProcessGroupNCCL.cpp:835] [Rank 11] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.728050 29442 ProcessGroupNCCL.cpp:835] [Rank 81] NCCL watchdog thread started! I1109 17:19:25.737735 532 ProcessGroupNCCL.cpp:669] [Rank 18] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.737759 529 ProcessGroupNCCL.cpp:669] [Rank 16] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.737797 531 ProcessGroupNCCL.cpp:669] [Rank 17] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.737850 533 ProcessGroupNCCL.cpp:669] [Rank 19] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.741814 2375 ProcessGroupNCCL.cpp:835] [Rank 63] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.729055 29786 ProcessGroupNCCL.cpp:835] [Rank 32] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.729046 29788 ProcessGroupNCCL.cpp:835] [Rank 34] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.730794 29787 ProcessGroupNCCL.cpp:835] [Rank 35] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.743968 2374 ProcessGroupNCCL.cpp:835] [Rank 61] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.745115 2376 ProcessGroupNCCL.cpp:835] [Rank 60] NCCL watchdog thread started! I1109 17:19:25.743041 27563 ProcessGroupNCCL.cpp:669] [Rank 42] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.743072 27564 ProcessGroupNCCL.cpp:669] [Rank 43] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.743113 27561 ProcessGroupNCCL.cpp:669] [Rank 40] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.743125 27562 ProcessGroupNCCL.cpp:669] [Rank 41] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.732630 2141 ProcessGroupNCCL.cpp:835] [Rank 79] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.732650 2140 ProcessGroupNCCL.cpp:835] [Rank 78] NCCL watchdog thread started! I1109 17:19:25.741647 30090 ProcessGroupNCCL.cpp:669] [Rank 84] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.741659 30092 ProcessGroupNCCL.cpp:669] [Rank 85] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.741683 30093 ProcessGroupNCCL.cpp:669] [Rank 86] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.741693 30094 ProcessGroupNCCL.cpp:669] [Rank 87] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.750344 2373 ProcessGroupNCCL.cpp:835] [Rank 62] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.752183 2651 ProcessGroupNCCL.cpp:835] [Rank 94] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.752539 2650 ProcessGroupNCCL.cpp:835] [Rank 95] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.752895 2648 ProcessGroupNCCL.cpp:835] [Rank 92] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.752992 2649 ProcessGroupNCCL.cpp:835] [Rank 93] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.744205 30975 ProcessGroupNCCL.cpp:835] [Rank 25] NCCL watchdog thread started! I1109 17:19:25.744140 30003 ProcessGroupNCCL.cpp:669] [Rank 25] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.744231 30977 ProcessGroupNCCL.cpp:835] [Rank 24] NCCL watchdog thread started! I1109 17:19:25.744155 30001 ProcessGroupNCCL.cpp:669] [Rank 24] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.744314 30976 ProcessGroupNCCL.cpp:835] [Rank 26] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.744346 30978 ProcessGroupNCCL.cpp:835] [Rank 27] NCCL watchdog thread started! I1109 17:19:25.744437 30005 ProcessGroupNCCL.cpp:669] [Rank 27] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.744467 30004 ProcessGroupNCCL.cpp:669] [Rank 26] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.757555 30796 ProcessGroupNCCL.cpp:835] [Rank 14] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.758790 30795 ProcessGroupNCCL.cpp:835] [Rank 13] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.759550 30794 ProcessGroupNCCL.cpp:835] [Rank 12] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.748878 19131 ProcessGroupNCCL.cpp:835] [Rank 65] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.749011 19132 ProcessGroupNCCL.cpp:835] [Rank 66] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.760469 30797 ProcessGroupNCCL.cpp:835] [Rank 15] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.751334 29785 ProcessGroupNCCL.cpp:835] [Rank 33] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.750589 19129 ProcessGroupNCCL.cpp:835] [Rank 67] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.753679 19130 ProcessGroupNCCL.cpp:835] [Rank 64] NCCL watchdog thread started! I1109 17:19:25.753633 20316 ProcessGroupNCCL.cpp:669] [Rank 88] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.753656 20319 ProcessGroupNCCL.cpp:669] [Rank 90] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.753669 20318 ProcessGroupNCCL.cpp:669] [Rank 89] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.753690 20320 ProcessGroupNCCL.cpp:669] [Rank 91] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.770100 20544 ProcessGroupNCCL.cpp:669] [Rank 9] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.770109 20545 ProcessGroupNCCL.cpp:669] [Rank 10] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.770121 20546 ProcessGroupNCCL.cpp:669] [Rank 11] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.770131 20542 ProcessGroupNCCL.cpp:669] [Rank 8] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.771445 18265 ProcessGroupNCCL.cpp:669] [Rank 65] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.771474 18266 ProcessGroupNCCL.cpp:669] [Rank 66] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.771490 18267 ProcessGroupNCCL.cpp:669] [Rank 67] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.771502 18263 ProcessGroupNCCL.cpp:669] [Rank 64] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.799934 7626 ProcessGroupNCCL.cpp:835] [Rank 38] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.802338 7627 ProcessGroupNCCL.cpp:835] [Rank 36] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.803121 7625 ProcessGroupNCCL.cpp:835] [Rank 39] NCCL watchdog thread started! WARNING: Logging before InitGoogleLogging() is written to STDERR I1109 17:19:25.806672 7624 ProcessGroupNCCL.cpp:835] [Rank 37] NCCL watchdog thread started! I1109 17:19:25.801447 18606 ProcessGroupNCCL.cpp:669] [Rank 44] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.801455 18608 ProcessGroupNCCL.cpp:669] [Rank 45] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.801463 18609 ProcessGroupNCCL.cpp:669] [Rank 46] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.801476 18610 ProcessGroupNCCL.cpp:669] [Rank 47] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.813210 1700 ProcessGroupNCCL.cpp:669] [Rank 92] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.813227 1703 ProcessGroupNCCL.cpp:669] [Rank 95] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.813705 29746 ProcessGroupNCCL.cpp:669] [Rank 15] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.813247 1701 ProcessGroupNCCL.cpp:669] [Rank 93] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.813721 29742 ProcessGroupNCCL.cpp:669] [Rank 12] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.813274 1702 ProcessGroupNCCL.cpp:669] [Rank 94] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.813735 29744 ProcessGroupNCCL.cpp:669] [Rank 13] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.802896 1469 ProcessGroupNCCL.cpp:669] [Rank 79] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.813747 29745 ProcessGroupNCCL.cpp:669] [Rank 14] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.802894 1468 ProcessGroupNCCL.cpp:669] [Rank 78] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.802884 1465 ProcessGroupNCCL.cpp:669] [Rank 76] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.812557 32031 ProcessGroupNCCL.cpp:669] [Rank 49] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.802918 1467 ProcessGroupNCCL.cpp:669] [Rank 77] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.812590 32030 ProcessGroupNCCL.cpp:669] [Rank 48] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.812585 32033 ProcessGroupNCCL.cpp:669] [Rank 51] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.812610 32032 ProcessGroupNCCL.cpp:669] [Rank 50] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.802479 11956 ProcessGroupNCCL.cpp:669] [Rank 53] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.802495 11954 ProcessGroupNCCL.cpp:669] [Rank 52] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.802512 11957 ProcessGroupNCCL.cpp:669] [Rank 54] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.802527 11958 ProcessGroupNCCL.cpp:669] [Rank 55] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.804852 13224 ProcessGroupNCCL.cpp:669] [Rank 3] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.804855 13221 ProcessGroupNCCL.cpp:669] [Rank 0] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.804890 13222 ProcessGroupNCCL.cpp:669] [Rank 1] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.804898 13223 ProcessGroupNCCL.cpp:669] [Rank 2] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.819341 1636 ProcessGroupNCCL.cpp:669] [Rank 62] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.819362 1637 ProcessGroupNCCL.cpp:669] [Rank 63] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.819371 1633 ProcessGroupNCCL.cpp:669] [Rank 60] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.819381 1635 ProcessGroupNCCL.cpp:669] [Rank 61] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.838920 6738 ProcessGroupNCCL.cpp:669] [Rank 37] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.838945 6736 ProcessGroupNCCL.cpp:669] [Rank 36] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.838969 6739 ProcessGroupNCCL.cpp:669] [Rank 38] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.838966 6740 ProcessGroupNCCL.cpp:669] [Rank 39] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.871241 22930 ProcessGroupNCCL.cpp:669] [Rank 72] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.871281 22932 ProcessGroupNCCL.cpp:669] [Rank 73] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.871290 22934 ProcessGroupNCCL.cpp:669] [Rank 75] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.871305 22933 ProcessGroupNCCL.cpp:669] [Rank 74] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.871773 29128 ProcessGroupNCCL.cpp:669] [Rank 34] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.871788 29129 ProcessGroupNCCL.cpp:669] [Rank 35] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.871793 29127 ProcessGroupNCCL.cpp:669] [Rank 33] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.871801 29125 ProcessGroupNCCL.cpp:669] [Rank 32] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.877801 28710 ProcessGroupNCCL.cpp:669] [Rank 83] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.877813 28706 ProcessGroupNCCL.cpp:669] [Rank 80] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.877831 28708 ProcessGroupNCCL.cpp:669] [Rank 81] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:19:25.877843 28709 ProcessGroupNCCL.cpp:669] [Rank 82] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a configuration with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. Explicitly passing a `revision` is encouraged when loading a model with custom code to ensure no malicious code has been contributed in a newer revision. I1109 17:19:30.471735 13221 ProcessGroupNCCL.cpp:1274] NCCL_DEBUG: INFO Loading checkpoint shards: 0%| | 0/2 [00:00 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors Token indices sequence length is longer than the specified maximum sequence length for this model (159 > 64). Running this sequence through the model will result in indexing errors I1109 17:21:30.232172 28708 ProcessGroupNCCL.cpp:669] [Rank 81] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.232273 31046 ProcessGroupNCCL.cpp:835] [Rank 81] NCCL watchdog thread started! I1109 17:21:30.232368 28709 ProcessGroupNCCL.cpp:669] [Rank 82] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.232481 31047 ProcessGroupNCCL.cpp:835] [Rank 82] NCCL watchdog thread started! I1109 17:21:30.229944 1885 ProcessGroupNCCL.cpp:835] [Rank 49] NCCL watchdog thread started! I1109 17:21:30.229861 32031 ProcessGroupNCCL.cpp:669] [Rank 49] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.229918 32032 ProcessGroupNCCL.cpp:669] [Rank 50] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.230038 1886 ProcessGroupNCCL.cpp:835] [Rank 50] NCCL watchdog thread started! I1109 17:21:30.232705 28710 ProcessGroupNCCL.cpp:669] [Rank 83] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.232802 31048 ProcessGroupNCCL.cpp:835] [Rank 83] NCCL watchdog thread started! I1109 17:21:30.230407 32033 ProcessGroupNCCL.cpp:669] [Rank 51] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.230502 1887 ProcessGroupNCCL.cpp:835] [Rank 51] NCCL watchdog thread started! I1109 17:21:30.230775 32030 ProcessGroupNCCL.cpp:669] [Rank 48] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.230895 1888 ProcessGroupNCCL.cpp:835] [Rank 48] NCCL watchdog thread started! I1109 17:21:30.233544 28706 ProcessGroupNCCL.cpp:669] [Rank 80] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.233637 31049 ProcessGroupNCCL.cpp:835] [Rank 80] NCCL watchdog thread started! I1109 17:21:30.238595 23159 ProcessGroupNCCL.cpp:835] [Rank 90] NCCL watchdog thread started! I1109 17:21:30.238538 20319 ProcessGroupNCCL.cpp:669] [Rank 90] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.238708 20320 ProcessGroupNCCL.cpp:669] [Rank 91] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.238803 23160 ProcessGroupNCCL.cpp:835] [Rank 91] NCCL watchdog thread started! I1109 17:21:30.239065 20318 ProcessGroupNCCL.cpp:669] [Rank 89] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.239179 23161 ProcessGroupNCCL.cpp:835] [Rank 89] NCCL watchdog thread started! I1109 17:21:30.239212 23162 ProcessGroupNCCL.cpp:835] [Rank 88] NCCL watchdog thread started! I1109 17:21:30.239173 20316 ProcessGroupNCCL.cpp:669] [Rank 88] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.301719 28930 ProcessGroupNCCL.cpp:669] [Rank 28] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.301832 31951 ProcessGroupNCCL.cpp:835] [Rank 28] NCCL watchdog thread started! I1109 17:21:30.301964 28932 ProcessGroupNCCL.cpp:669] [Rank 29] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.301995 28933 ProcessGroupNCCL.cpp:669] [Rank 30] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.302104 31952 ProcessGroupNCCL.cpp:835] [Rank 29] NCCL watchdog thread started! I1109 17:21:30.302109 31953 ProcessGroupNCCL.cpp:835] [Rank 30] NCCL watchdog thread started! I1109 17:21:30.302201 28934 ProcessGroupNCCL.cpp:669] [Rank 31] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.302284 31954 ProcessGroupNCCL.cpp:835] [Rank 31] NCCL watchdog thread started! I1109 17:21:30.331609 16338 ProcessGroupNCCL.cpp:835] [Rank 3] NCCL watchdog thread started! I1109 17:21:30.331533 13224 ProcessGroupNCCL.cpp:669] [Rank 3] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.331691 13223 ProcessGroupNCCL.cpp:669] [Rank 2] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.331609 13221 ProcessGroupNCCL.cpp:669] [Rank 0] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.331688 16339 ProcessGroupNCCL.cpp:835] [Rank 0] NCCL watchdog thread started! I1109 17:21:30.331826 16340 ProcessGroupNCCL.cpp:835] [Rank 2] NCCL watchdog thread started! I1109 17:21:30.331841 16341 ProcessGroupNCCL.cpp:835] [Rank 1] NCCL watchdog thread started! I1109 17:21:30.331806 13222 ProcessGroupNCCL.cpp:669] [Rank 1] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.333994 1637 ProcessGroupNCCL.cpp:669] [Rank 63] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.334096 3886 ProcessGroupNCCL.cpp:835] [Rank 63] NCCL watchdog thread started! I1109 17:21:30.334051 1633 ProcessGroupNCCL.cpp:669] [Rank 60] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.334182 3888 ProcessGroupNCCL.cpp:835] [Rank 61] NCCL watchdog thread started! I1109 17:21:30.334098 1635 ProcessGroupNCCL.cpp:669] [Rank 61] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.334167 3887 ProcessGroupNCCL.cpp:835] [Rank 60] NCCL watchdog thread started! I1109 17:21:30.334408 3889 ProcessGroupNCCL.cpp:835] [Rank 62] NCCL watchdog thread started! I1109 17:21:30.334314 1636 ProcessGroupNCCL.cpp:669] [Rank 62] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.343241 18263 ProcessGroupNCCL.cpp:669] [Rank 64] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.343325 21076 ProcessGroupNCCL.cpp:835] [Rank 64] NCCL watchdog thread started! I1109 17:21:30.343264 18267 ProcessGroupNCCL.cpp:669] [Rank 67] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.343355 21077 ProcessGroupNCCL.cpp:835] [Rank 67] NCCL watchdog thread started! I1109 17:21:30.343654 18266 ProcessGroupNCCL.cpp:669] [Rank 66] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.343760 21078 ProcessGroupNCCL.cpp:835] [Rank 66] NCCL watchdog thread started! I1109 17:21:30.343690 18265 ProcessGroupNCCL.cpp:669] [Rank 65] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.343786 21079 ProcessGroupNCCL.cpp:835] [Rank 65] NCCL watchdog thread started! I1109 17:21:30.358815 3710 ProcessGroupNCCL.cpp:835] [Rank 77] NCCL watchdog thread started! I1109 17:21:30.358717 1467 ProcessGroupNCCL.cpp:669] [Rank 77] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.358798 1468 ProcessGroupNCCL.cpp:669] [Rank 78] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.358902 3711 ProcessGroupNCCL.cpp:835] [Rank 78] NCCL watchdog thread started! I1109 17:21:30.359069 1469 ProcessGroupNCCL.cpp:669] [Rank 79] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.359118 3712 ProcessGroupNCCL.cpp:835] [Rank 79] NCCL watchdog thread started! I1109 17:21:30.359551 1465 ProcessGroupNCCL.cpp:669] [Rank 76] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.359650 3713 ProcessGroupNCCL.cpp:835] [Rank 76] NCCL watchdog thread started! I1109 17:21:30.366884 31377 ProcessGroupNCCL.cpp:835] [Rank 35] NCCL watchdog thread started! I1109 17:21:30.366897 31378 ProcessGroupNCCL.cpp:835] [Rank 32] NCCL watchdog thread started! I1109 17:21:30.366815 29129 ProcessGroupNCCL.cpp:669] [Rank 35] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.367022 29127 ProcessGroupNCCL.cpp:669] [Rank 33] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.367130 31379 ProcessGroupNCCL.cpp:835] [Rank 33] NCCL watchdog thread started! I1109 17:21:30.366852 29125 ProcessGroupNCCL.cpp:669] [Rank 32] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.367161 29128 ProcessGroupNCCL.cpp:669] [Rank 34] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.367300 31380 ProcessGroupNCCL.cpp:835] [Rank 34] NCCL watchdog thread started! I1109 17:21:30.369704 10007 ProcessGroupNCCL.cpp:835] [Rank 38] NCCL watchdog thread started! I1109 17:21:30.369601 6739 ProcessGroupNCCL.cpp:669] [Rank 38] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.369699 6738 ProcessGroupNCCL.cpp:669] [Rank 37] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.369814 10008 ProcessGroupNCCL.cpp:835] [Rank 37] NCCL watchdog thread started! I1109 17:21:30.369872 6736 ProcessGroupNCCL.cpp:669] [Rank 36] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.369959 10009 ProcessGroupNCCL.cpp:835] [Rank 36] NCCL watchdog thread started! I1109 17:21:30.370020 10010 ProcessGroupNCCL.cpp:835] [Rank 39] NCCL watchdog thread started! I1109 17:21:30.369932 6740 ProcessGroupNCCL.cpp:669] [Rank 39] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.417722 22934 ProcessGroupNCCL.cpp:669] [Rank 75] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.417771 25768 ProcessGroupNCCL.cpp:835] [Rank 75] NCCL watchdog thread started! I1109 17:21:30.417698 22932 ProcessGroupNCCL.cpp:669] [Rank 73] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.417791 25767 ProcessGroupNCCL.cpp:835] [Rank 73] NCCL watchdog thread started! I1109 17:21:30.417865 25769 ProcessGroupNCCL.cpp:835] [Rank 72] NCCL watchdog thread started! I1109 17:21:30.417831 22930 ProcessGroupNCCL.cpp:669] [Rank 72] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.417909 22933 ProcessGroupNCCL.cpp:669] [Rank 74] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.418004 25770 ProcessGroupNCCL.cpp:835] [Rank 74] NCCL watchdog thread started! I1109 17:21:30.493109 18596 ProcessGroupNCCL.cpp:669] [Rank 59] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.493232 20861 ProcessGroupNCCL.cpp:835] [Rank 59] NCCL watchdog thread started! I1109 17:21:30.493769 18594 ProcessGroupNCCL.cpp:669] [Rank 57] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.493888 20862 ProcessGroupNCCL.cpp:835] [Rank 57] NCCL watchdog thread started! I1109 17:21:30.493903 18592 ProcessGroupNCCL.cpp:669] [Rank 56] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.494010 20863 ProcessGroupNCCL.cpp:835] [Rank 56] NCCL watchdog thread started! I1109 17:21:30.494335 20864 ProcessGroupNCCL.cpp:835] [Rank 58] NCCL watchdog thread started! I1109 17:21:30.494271 18595 ProcessGroupNCCL.cpp:669] [Rank 58] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.550258 30092 ProcessGroupNCCL.cpp:669] [Rank 85] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.550354 549 ProcessGroupNCCL.cpp:835] [Rank 85] NCCL watchdog thread started! I1109 17:21:30.550293 30093 ProcessGroupNCCL.cpp:669] [Rank 86] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.550352 550 ProcessGroupNCCL.cpp:835] [Rank 86] NCCL watchdog thread started! I1109 17:21:30.550855 551 ProcessGroupNCCL.cpp:835] [Rank 84] NCCL watchdog thread started! I1109 17:21:30.550786 30090 ProcessGroupNCCL.cpp:669] [Rank 84] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.550830 30094 ProcessGroupNCCL.cpp:669] [Rank 87] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.550930 552 ProcessGroupNCCL.cpp:835] [Rank 87] NCCL watchdog thread started! I1109 17:21:30.642760 4674 ProcessGroupNCCL.cpp:835] [Rank 93] NCCL watchdog thread started! I1109 17:21:30.642658 1701 ProcessGroupNCCL.cpp:669] [Rank 93] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.642827 4675 ProcessGroupNCCL.cpp:835] [Rank 95] NCCL watchdog thread started! I1109 17:21:30.642740 1703 ProcessGroupNCCL.cpp:669] [Rank 95] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.641224 23920 ProcessGroupNCCL.cpp:669] [Rank 71] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.641336 26730 ProcessGroupNCCL.cpp:835] [Rank 71] NCCL watchdog thread started! I1109 17:21:30.643311 4676 ProcessGroupNCCL.cpp:835] [Rank 92] NCCL watchdog thread started! I1109 17:21:30.643239 1700 ProcessGroupNCCL.cpp:669] [Rank 92] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.639176 11956 ProcessGroupNCCL.cpp:669] [Rank 53] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.639314 15082 ProcessGroupNCCL.cpp:835] [Rank 53] NCCL watchdog thread started! I1109 17:21:30.641680 23918 ProcessGroupNCCL.cpp:669] [Rank 69] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.641765 26731 ProcessGroupNCCL.cpp:835] [Rank 69] NCCL watchdog thread started! I1109 17:21:30.643702 20545 ProcessGroupNCCL.cpp:669] [Rank 10] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.641762 23916 ProcessGroupNCCL.cpp:669] [Rank 68] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.643746 20544 ProcessGroupNCCL.cpp:669] [Rank 9] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.643857 23401 ProcessGroupNCCL.cpp:835] [Rank 9] NCCL watchdog thread started! I1109 17:21:30.643594 1702 ProcessGroupNCCL.cpp:669] [Rank 94] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.643815 23400 ProcessGroupNCCL.cpp:835] [Rank 10] NCCL watchdog thread started! I1109 17:21:30.643663 4677 ProcessGroupNCCL.cpp:835] [Rank 94] NCCL watchdog thread started! I1109 17:21:30.641896 26732 ProcessGroupNCCL.cpp:835] [Rank 68] NCCL watchdog thread started! I1109 17:21:30.639495 11958 ProcessGroupNCCL.cpp:669] [Rank 55] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.639600 15083 ProcessGroupNCCL.cpp:835] [Rank 55] NCCL watchdog thread started! I1109 17:21:30.643996 20546 ProcessGroupNCCL.cpp:669] [Rank 11] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.644090 23402 ProcessGroupNCCL.cpp:835] [Rank 11] NCCL watchdog thread started! I1109 17:21:30.642045 26733 ProcessGroupNCCL.cpp:835] [Rank 70] NCCL watchdog thread started! I1109 17:21:30.641996 23919 ProcessGroupNCCL.cpp:669] [Rank 70] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.644148 23403 ProcessGroupNCCL.cpp:835] [Rank 8] NCCL watchdog thread started! I1109 17:21:30.644055 20542 ProcessGroupNCCL.cpp:669] [Rank 8] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.639706 11954 ProcessGroupNCCL.cpp:669] [Rank 52] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.639847 15084 ProcessGroupNCCL.cpp:835] [Rank 52] NCCL watchdog thread started! I1109 17:21:30.639868 11957 ProcessGroupNCCL.cpp:669] [Rank 54] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.639973 15085 ProcessGroupNCCL.cpp:835] [Rank 54] NCCL watchdog thread started! I1109 17:21:30.651217 30003 ProcessGroupNCCL.cpp:669] [Rank 25] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.651326 476 ProcessGroupNCCL.cpp:835] [Rank 25] NCCL watchdog thread started! I1109 17:21:30.651661 30004 ProcessGroupNCCL.cpp:669] [Rank 26] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.651758 477 ProcessGroupNCCL.cpp:835] [Rank 26] NCCL watchdog thread started! I1109 17:21:30.651813 30001 ProcessGroupNCCL.cpp:669] [Rank 24] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.651917 478 ProcessGroupNCCL.cpp:835] [Rank 24] NCCL watchdog thread started! I1109 17:21:30.652141 30005 ProcessGroupNCCL.cpp:669] [Rank 27] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.652227 479 ProcessGroupNCCL.cpp:835] [Rank 27] NCCL watchdog thread started! I1109 17:21:30.644507 29745 ProcessGroupNCCL.cpp:669] [Rank 14] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.644623 32747 ProcessGroupNCCL.cpp:835] [Rank 13] NCCL watchdog thread started! I1109 17:21:30.644559 29744 ProcessGroupNCCL.cpp:669] [Rank 13] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.644613 32746 ProcessGroupNCCL.cpp:835] [Rank 14] NCCL watchdog thread started! I1109 17:21:30.644968 29742 ProcessGroupNCCL.cpp:669] [Rank 12] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.645058 32748 ProcessGroupNCCL.cpp:835] [Rank 12] NCCL watchdog thread started! I1109 17:21:30.645152 29746 ProcessGroupNCCL.cpp:669] [Rank 15] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.645275 32749 ProcessGroupNCCL.cpp:835] [Rank 15] NCCL watchdog thread started! I1109 17:21:30.656955 18608 ProcessGroupNCCL.cpp:669] [Rank 45] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.657056 21575 ProcessGroupNCCL.cpp:835] [Rank 45] NCCL watchdog thread started! I1109 17:21:30.657174 18606 ProcessGroupNCCL.cpp:669] [Rank 44] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.657289 21576 ProcessGroupNCCL.cpp:835] [Rank 44] NCCL watchdog thread started! I1109 17:21:30.657334 21577 ProcessGroupNCCL.cpp:835] [Rank 46] NCCL watchdog thread started! I1109 17:21:30.657248 18609 ProcessGroupNCCL.cpp:669] [Rank 46] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.657421 18610 ProcessGroupNCCL.cpp:669] [Rank 47] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.657524 21578 ProcessGroupNCCL.cpp:835] [Rank 47] NCCL watchdog thread started! I1109 17:21:30.667780 531 ProcessGroupNCCL.cpp:669] [Rank 17] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.667881 3569 ProcessGroupNCCL.cpp:835] [Rank 17] NCCL watchdog thread started! I1109 17:21:30.667886 529 ProcessGroupNCCL.cpp:669] [Rank 16] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.668004 3570 ProcessGroupNCCL.cpp:835] [Rank 16] NCCL watchdog thread started! I1109 17:21:30.668090 533 ProcessGroupNCCL.cpp:669] [Rank 19] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.668192 3571 ProcessGroupNCCL.cpp:835] [Rank 19] NCCL watchdog thread started! I1109 17:21:30.668262 532 ProcessGroupNCCL.cpp:669] [Rank 18] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.668382 3572 ProcessGroupNCCL.cpp:835] [Rank 18] NCCL watchdog thread started! I1109 17:21:30.678879 3352 ProcessGroupNCCL.cpp:835] [Rank 6] NCCL watchdog thread started! I1109 17:21:30.678824 1100 ProcessGroupNCCL.cpp:669] [Rank 6] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.679248 1097 ProcessGroupNCCL.cpp:669] [Rank 5] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.679388 3353 ProcessGroupNCCL.cpp:835] [Rank 5] NCCL watchdog thread started! I1109 17:21:30.679386 3354 ProcessGroupNCCL.cpp:835] [Rank 7] NCCL watchdog thread started! I1109 17:21:30.679355 1101 ProcessGroupNCCL.cpp:669] [Rank 7] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.679529 1095 ProcessGroupNCCL.cpp:669] [Rank 4] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.679600 3355 ProcessGroupNCCL.cpp:835] [Rank 4] NCCL watchdog thread started! I1109 17:21:30.680392 17855 ProcessGroupNCCL.cpp:669] [Rank 22] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.680505 20699 ProcessGroupNCCL.cpp:835] [Rank 22] NCCL watchdog thread started! I1109 17:21:30.680585 17854 ProcessGroupNCCL.cpp:669] [Rank 21] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.680720 20700 ProcessGroupNCCL.cpp:835] [Rank 21] NCCL watchdog thread started! I1109 17:21:30.680688 17856 ProcessGroupNCCL.cpp:669] [Rank 23] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.680776 20701 ProcessGroupNCCL.cpp:835] [Rank 23] NCCL watchdog thread started! I1109 17:21:30.680795 17852 ProcessGroupNCCL.cpp:669] [Rank 20] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.680944 20702 ProcessGroupNCCL.cpp:835] [Rank 20] NCCL watchdog thread started! I1109 17:21:30.695470 27562 ProcessGroupNCCL.cpp:669] [Rank 41] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.695573 30419 ProcessGroupNCCL.cpp:835] [Rank 41] NCCL watchdog thread started! I1109 17:21:30.695571 27563 ProcessGroupNCCL.cpp:669] [Rank 42] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.695693 30420 ProcessGroupNCCL.cpp:835] [Rank 42] NCCL watchdog thread started! I1109 17:21:30.695807 30421 ProcessGroupNCCL.cpp:835] [Rank 43] NCCL watchdog thread started! I1109 17:21:30.695744 27564 ProcessGroupNCCL.cpp:669] [Rank 43] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.696017 27561 ProcessGroupNCCL.cpp:669] [Rank 40] ProcessGroupNCCL initialized with following options: NCCL_ASYNC_ERROR_HANDLING: 0 NCCL_DESYNC_DEBUG: 0 NCCL_BLOCKING_WAIT: 0 TIMEOUT(ms): 1800000 USE_HIGH_PRIORITY_STREAM: 0 I1109 17:21:30.696153 30422 ProcessGroupNCCL.cpp:835] [Rank 40] NCCL watchdog thread started! I1109 17:21:31.758546 13221 ProcessGroupNCCL.cpp:1274] NCCL_DEBUG: INFO 0%| | 0/420 [00:00 โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โโ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โโ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 7%|โ–‹ | 29/420 [05:46<1:17:53, 11.95s/it]โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 7%|โ–‹ | 29/420 [05:46<1:17:54, 11.95s/it] 7%|โ–‹ | 29/420 [05:46<1:17:54, 11.95s/it]โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 7%|โ–‹ | 29/420 [05:46<1:17:54, 11.95s/it]โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 7%|โ–‹ | 29/420 [05:46<1:17:54, 11.95s/it]โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 7%|โ–‹ | 29/420 [05:46<1:17:54, 11.95s/it]โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 7%|โ–‹ | 29/420 [05:46<1:17:54, 11.96s/it]โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 7%|โ–‹ | 29/420 [05:46<1:17:54, 11.96s/it] 7%|โ–‹ | 29/420 [05:46<1:17:54, 11.96s/it]โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 7%|โ–‹ | 29/420 [05:46<1:17:54, 11.96s/it] 7%|โ–‹ | 29/420 [05:46<1:17:54, 11.96s/it] 7%|โ–‹ | 29/420 [05:46<1:17:54, 11.96s/it]โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 7%|โ–‹ | 29/420 [05:46<1:17:54, 11.96s/it] 7%|โ–‹ | 29/420 [05:46<1:17:54, 11.96s/it] 7%|โ–‹ | 29/420 [05:46<1:17:54, 11.96s/it] 7%|โ–‹ | 29/420 [05:46<1:17:54, 11.96s/it]โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 7%|โ–‹ | 29/420 [05:46<1:17:54, 11.96s/it] 7%|โ–‹ | 29/420 [05:46<1:17:55, 11.96s/it]โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โโ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 7%|โ–‹ | 29/420 [05:46<1:17:55, 11.96s/it]โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 7%|โ–‹ | 29/420 [05:46<1:17:55, 11.96s/it]โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 7%|โ–‹ | 29/420 [05:46<1:17:55, 11.96s/it]โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 7%|โ–‹ | 29/420 [05:46<1:17:55, 11.96s/it]โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:159 in โ”‚ โ”‚ โ”‚ โ”‚ 156 โ”‚ โ”‚ 157 โ”‚ โ”‚ 158 if __name__ == "__main__": โ”‚ โ”‚ โฑ 159 โ”‚ train() โ”‚ โ”‚ 160 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/work/Baichuan2-main/fine-tune/slurm_script/../fine-tu โ”‚ โ”‚ ne.py:153 in train โ”‚ โ”‚ โ”‚ โ”‚ 150 โ”‚ trainer = transformers.Trainer( โ”‚ โ”‚ 151 โ”‚ โ”‚ model=model, args=training_args, train_dataset=dataset, tokeni โ”‚ โ”‚ 152 โ”‚ ) โ”‚ โ”‚ โฑ 153 โ”‚ trainer.train() โ”‚ โ”‚ 154 โ”‚ trainer.save_state() โ”‚ โ”‚ 155 โ”‚ trainer.save_model(output_dir=training_args.output_dir) โ”‚ โ”‚ 156 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1663 in train โ”‚ โ”‚ โ”‚ โ”‚ 1660 โ”‚ โ”‚ โ”‚ args=args, โ”‚ โ”‚ 1661 โ”‚ โ”‚ โ”‚ resume_from_checkpoint=resume_from_checkpoint, โ”‚ โ”‚ 1662 โ”‚ โ”‚ โ”‚ trial=trial, โ”‚ โ”‚ โฑ 1663 โ”‚ โ”‚ โ”‚ ignore_keys_for_eval=ignore_keys_for_eval, โ”‚ โ”‚ 1664 โ”‚ โ”‚ ) โ”‚ โ”‚ 1665 โ”‚ โ”‚ โ”‚ 1666 โ”‚ def _inner_training_loop( โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/install/transformers-temp/transformers-main/src/trans โ”‚ โ”‚ formers/trainer.py:1945 in _inner_training_loop โ”‚ โ”‚ โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ # Optimizer step for deepspeed must be called on ever โ”‚ โ”‚ 1944 โ”‚ โ”‚ โ”‚ โ”‚ if self.deepspeed: โ”‚ โ”‚ โฑ 1945 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ self.deepspeed.step() โ”‚ โ”‚ 1946 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ โ”‚ if total_batched_samples % args.gradient_accumulation โ”‚ โ”‚ 1948 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ # last step in epoch but step is always smaller t โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:2037 in step โ”‚ โ”‚ โ”‚ โ”‚ 2034 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ and self.quantizer.any_precision_switch()): โ”‚ โ”‚ 2035 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs, self.block_eigenvalu โ”‚ โ”‚ 2036 โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ โฑ 2037 โ”‚ โ”‚ โ”‚ โ”‚ self._take_model_step(lr_kwargs) โ”‚ โ”‚ 2038 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ 2039 โ”‚ โ”‚ โ”‚ report_progress = self.global_rank == 0 if self.global_ra โ”‚ โ”‚ 2040 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/engine.py:1944 in _take_model_step โ”‚ โ”‚ โ”‚ โ”‚ 1941 โ”‚ โ”‚ โ”‚ โ”‚ # https://nvidia.github.io/apex/advanced.html#gradien โ”‚ โ”‚ 1942 โ”‚ โ”‚ โ”‚ โ”‚ master_params = amp.master_params(self.optimizer) โ”‚ โ”‚ 1943 โ”‚ โ”‚ โ”‚ โ”‚ clip_grad_norm_(parameters=master_params, max_norm=se โ”‚ โ”‚ โฑ 1944 โ”‚ โ”‚ self.optimizer.step() โ”‚ โ”‚ 1945 โ”‚ โ”‚ โ”‚ โ”‚ 1946 โ”‚ โ”‚ if hasattr(self.optimizer, '_global_grad_norm'): โ”‚ โ”‚ 1947 โ”‚ โ”‚ โ”‚ self._global_grad_norm = self.optimizer._global_grad_norm โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1783 in step โ”‚ โ”‚ โ”‚ โ”‚ 1780 โ”‚ โ”‚ self._partition_all_parameters() โ”‚ โ”‚ 1781 โ”‚ โ”‚ โ”‚ โ”‚ 1782 โ”‚ โ”‚ #checks for overflow, adjust the loss scale accordingly โ”‚ โ”‚ โฑ 1783 โ”‚ โ”‚ if self._overflow_check_and_loss_scale_update(): โ”‚ โ”‚ 1784 โ”‚ โ”‚ โ”‚ if self.swap_optimizer: โ”‚ โ”‚ 1785 โ”‚ โ”‚ โ”‚ โ”‚ self.optimizer_swapper.log_timers() โ”‚ โ”‚ 1786 โ”‚ โ”‚ โ”‚ return โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/utils/nvtx.py:15 in wrapped_fn โ”‚ โ”‚ โ”‚ โ”‚ 12 โ”‚ โ”‚ โ”‚ 13 โ”‚ def wrapped_fn(*args, **kwargs): โ”‚ โ”‚ 14 โ”‚ โ”‚ get_accelerator().range_push(func.__qualname__) โ”‚ โ”‚ โฑ 15 โ”‚ โ”‚ ret_val = func(*args, **kwargs) โ”‚ โ”‚ 16 โ”‚ โ”‚ get_accelerator().range_pop() โ”‚ โ”‚ 17 โ”‚ โ”‚ return ret_val โ”‚ โ”‚ 18 โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:1733 in โ”‚ โ”‚ _overflow_check_and_loss_scale_update โ”‚ โ”‚ โ”‚ โ”‚ 1730 โ”‚ โ”‚ โ”‚ โ”‚ 1731 โ”‚ โ”‚ #loss scaling related computation โ”‚ โ”‚ 1732 โ”‚ โ”‚ prev_scale = self.loss_scale โ”‚ โ”‚ โฑ 1733 โ”‚ โ”‚ self._update_scale(self.overflow) โ”‚ โ”‚ 1734 โ”‚ โ”‚ โ”‚ โ”‚ 1735 โ”‚ โ”‚ if self.overflow: โ”‚ โ”‚ 1736 โ”‚ โ”‚ โ”‚ self._overflow_clean_up(prev_scale) โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/zero/stage3.py:2048 in _update_scale โ”‚ โ”‚ โ”‚ โ”‚ 2045 โ”‚ โ”‚ self._check_overflow(partition_gradients) โ”‚ โ”‚ 2046 โ”‚ โ”‚ โ”‚ 2047 โ”‚ def _update_scale(self, has_overflow=False): โ”‚ โ”‚ โฑ 2048 โ”‚ โ”‚ self.loss_scaler.update_scale(has_overflow) โ”‚ โ”‚ 2049 โ”‚ โ”‚ โ”‚ 2050 โ”‚ # Promote state so it can be retrieved or set via "fp16_optimizer โ”‚ โ”‚ 2051 โ”‚ def _get_state(self): โ”‚ โ”‚ โ”‚ โ”‚ /public/home/zhaoying1/anaconda3/envs/llmtorch110py37/lib/python3.7/site-pac โ”‚ โ”‚ kages/deepspeed/runtime/fp16/loss_scaler.py:174 in update_scale โ”‚ โ”‚ โ”‚ โ”‚ 171 โ”‚ โ”‚ โ”‚ if self.delayed_shift == 1 or self.cur_hysteresis == 1: โ”‚ โ”‚ 172 โ”‚ โ”‚ โ”‚ โ”‚ if (self.cur_scale == self.min_scale) and self.raise_e โ”‚ โ”‚ 173 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ raise Exception( โ”‚ โ”‚ โฑ 174 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ "Current loss scale already at minimum - canno โ”‚ โ”‚ 175 โ”‚ โ”‚ โ”‚ โ”‚ else: โ”‚ โ”‚ 176 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ next_scale = max(self.cur_scale / self.scale_facto โ”‚ โ”‚ 177 โ”‚ โ”‚ โ”‚ โ”‚ โ”‚ if dist.get_rank() == 0: โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run. 7%|โ–‹ | 29/420 [05:46<1:17:56, 11.96s/it] 7%|โ–‹ | 29/420 [05:46<1:17:57, 11.96s/it]-------------------------------------------------------------------------- Primary job terminated normally, but 1 process returned a non-zero exit code. Per user-direction, the job has been aborted. -------------------------------------------------------------------------- -------------------------------------------------------------------------- mpirun detected that one or more processes exited with non-zero status, thus causing the job to be terminated. The first process to do so was: Process name: [[49075,1],18] Exit code: 1 --------------------------------------------------------------------------