You can find out english explanation on below! 3일 동안 이거 생각만 하다가 결국 해결해 버린.. 멀티 GPU에서 큰 데이터셋으로 학습시킬 때 뜨는 timeout 에러입니다. 에러 메세지 끝부분만 보면 subprocess.run()에서 뭔가 이상한 값을 리턴 받았다는 내용이라 파라미터 설정을 잘못했나 싶지만, 에러가 난 시점을 살펴보면 아래와 같은 메시지들을 찾아볼 수 있습니다. Watchdog caught collective operation timeout: WorkNCCL(SeqNum=6, OpType=ALLREDUCE, Timeout(ms)=1800000) ran for 1806474 milliseconds before timing out. torch.distr..
[해결] Watchdog caught collective operation timeout, Multi-GPU (DDP) NCCL 타임아웃 시간 설정
You can find out english explanation on below! 3일 동안 이거 생각만 하다가 결국 해결해 버린.. 멀티 GPU에서 큰 데이터셋으로 학습시킬 때 뜨는 timeout 에러입니다. 에러 메세지 끝부분만 보면 subprocess.run()에서 뭔가 이상한 값을 리턴 받았다는 내용이라 파라미터 설정을 잘못했나 싶지만, 에러가 난 시점을 살펴보면 아래와 같은 메시지들을 찾아볼 수 있습니다. Watchdog caught collective operation timeout: WorkNCCL(SeqNum=6, OpType=ALLREDUCE, Timeout(ms)=1800000) ran for 1806474 milliseconds before timing out. torch.distr..
2023.06.23