728x90 pySpark1 [PySpark] PySpark 시작하기: 기본 개념과 설정 1. PySpark란?PySpark는 대용량 데이터를 분산 처리할 수 있는 Apache Spark의 Python API이다.Spark는 Hadoop보다 빠른 메모리 기반 데이터 처리 엔진으로, 데이터 분석, 머신러닝, 실시간 데이터 처리 등에 널리 사용된다. PySpark의 주요 특징빠른 데이터 처리: In-Memory(메모리 내) 연산을 지원해 속도가 빠름확장성: 클러스터를 활용해 데이터 병렬 처리 가능유연한 인터페이스: SQL, DataFrame, RDD, 머신러닝 등 다양한 기능 제공2. PySpark 설치 및 환경 설정PySpark 설치 방법터미널이나 CMD에서 아래 명령어 실행: pip install pysparkpip install findspark # Jupyter Notebook 사용 시 .. 2025. 2. 5. 이전 1 다음 반응형