안녕하세요, 이번에 대용량 시계열 데이터를 분석하기 시작하면서 겪었던 문제점과 해결 방안에 대해 남기기 위한 로그입니다. 저와 같은 문제를 겪은 국내/외 개발자들은 많았으나 에러가 왜 생겼는지, 해결 방법은 무엇인지 한 군데에서 깔끔하게 볼 수 있는 페이지는 없어 정리합니다.Environment* 사내 보안망으로 분리된 원격 서버 위에서 데이터 로딩이 필요했고, mongoDB는 사내 타 서버에 구축되어있는 상황Ubuntu 20.04python 3.10으로 셋팅한 Docker container 내부에서 작업 (다운그레이드한 3.8 환경 추가로 구축)pyspark 3.5.4mongo-spark-connector 2.12-10.2.2bson 4.8.2mongo-driver 4.8.2Problems&Result..
[해결] pyspark로 mongoDB에서 데이터 불러오기
안녕하세요, 이번에 대용량 시계열 데이터를 분석하기 시작하면서 겪었던 문제점과 해결 방안에 대해 남기기 위한 로그입니다. 저와 같은 문제를 겪은 국내/외 개발자들은 많았으나 에러가 왜 생겼는지, 해결 방법은 무엇인지 한 군데에서 깔끔하게 볼 수 있는 페이지는 없어 정리합니다.Environment* 사내 보안망으로 분리된 원격 서버 위에서 데이터 로딩이 필요했고, mongoDB는 사내 타 서버에 구축되어있는 상황Ubuntu 20.04python 3.10으로 셋팅한 Docker container 내부에서 작업 (다운그레이드한 3.8 환경 추가로 구축)pyspark 3.5.4mongo-spark-connector 2.12-10.2.2bson 4.8.2mongo-driver 4.8.2Problems&Result..
2025.02.10