pytorch
-
You can find out english explanation on below! 3일 동안 이거 생각만 하다가 결국 해결해 버린.. 멀티 GPU에서 큰 데이터셋으로 학습시킬 때 뜨는 timeout 에러입니다. 에러 메세지 끝부분만 보면 subprocess.run()에서 뭔가 이상한 값을 리턴 받았다는 내용이라 파라미터 설정을 잘못했나 싶지만, 에러가 난 시점을 살펴보면 아래와 같은 메시지들을 찾아볼 수 있습니다. Watchdog caught collective operation timeout: WorkNCCL(SeqNum=6, OpType=ALLREDUCE, Timeout(ms)=1800000) ran for 1806474 milliseconds before timing out. torch.distr..
[해결] Watchdog caught collective operation timeout, Multi-GPU (DDP) NCCL 타임아웃 시간 설정You can find out english explanation on below! 3일 동안 이거 생각만 하다가 결국 해결해 버린.. 멀티 GPU에서 큰 데이터셋으로 학습시킬 때 뜨는 timeout 에러입니다. 에러 메세지 끝부분만 보면 subprocess.run()에서 뭔가 이상한 값을 리턴 받았다는 내용이라 파라미터 설정을 잘못했나 싶지만, 에러가 난 시점을 살펴보면 아래와 같은 메시지들을 찾아볼 수 있습니다. Watchdog caught collective operation timeout: WorkNCCL(SeqNum=6, OpType=ALLREDUCE, Timeout(ms)=1800000) ran for 1806474 milliseconds before timing out. torch.distr..
2023.06.23 -
원격 서버에서 모델을 테스트 겸 돌려보려다 발생한 에러입니다. pytorch와 CUDA가 충돌을 일으킨다고 합니다. 제가 이해가 안 되는 점은.. 지난주에는 멀쩡하게 잘만 되던 cuda가 오늘 말썽인 건지... 아마 이번 모델을 돌리기 전에 필요한 패키지들을 설치하는 중간에 pytorch가 재설치되는 과정에서 뭔가 꼬인 듯합니다. pytorch를 삭제하고 운영체제와 쓰려는 CUDA 버전에 맞추어 재설치하니까 해결이 되긴 했습니다. # 파이토치 uninstall conda uninstall pytorch # linux, cuda 11.8 설치 conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia 아래 홈페이지에..
[해결] CUDA capability sm_86 is not compatible with the current PyTorch installation.원격 서버에서 모델을 테스트 겸 돌려보려다 발생한 에러입니다. pytorch와 CUDA가 충돌을 일으킨다고 합니다. 제가 이해가 안 되는 점은.. 지난주에는 멀쩡하게 잘만 되던 cuda가 오늘 말썽인 건지... 아마 이번 모델을 돌리기 전에 필요한 패키지들을 설치하는 중간에 pytorch가 재설치되는 과정에서 뭔가 꼬인 듯합니다. pytorch를 삭제하고 운영체제와 쓰려는 CUDA 버전에 맞추어 재설치하니까 해결이 되긴 했습니다. # 파이토치 uninstall conda uninstall pytorch # linux, cuda 11.8 설치 conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia 아래 홈페이지에..
2023.04.16