PySpark vs Dask
1. 기본 개념과 배경 특징PySparkDask프레임워크Apache Spark의 Python API로, Spark는 빅데이터 처리에 최적화된 분산 컴퓨팅 엔진Python 네이티브 병렬 처리 라이브러리, Pandas, NumPy와의 통합성이 뛰어남기원 및 커뮤니티Apache Software Foundation의 일환으로 개발되었으며, 대규모 빅데이터 환경에 최적화됨Python 생태계의 일부로, Pandas, NumPy, Scikit-learn 등과 쉽게 통합 가능주요 목적대규모 데이터셋을 다루기 위한 분산 컴퓨팅 및 병렬 처리보다 유연한 병렬 처리를 지원하며, 로컬 또는 분산 클러스터에서 효율적임설치 환경주로 클러스터 환경(예: Hadoop, Spark 클러스터)에 설치되어 대용량 데이터 처리로컬, 클러스..
테크/PySpark
2024. 9. 15. 17:26