본문 바로가기
728x90

Programming (프로그래밍)/Python10

[PySpark] PySpark 시작하기: 기본 개념과 설정 1. PySpark란?PySpark는 대용량 데이터를 분산 처리할 수 있는 Apache Spark의 Python API이다.Spark는 Hadoop보다 빠른 메모리 기반 데이터 처리 엔진으로, 데이터 분석, 머신러닝, 실시간 데이터 처리 등에 널리 사용된다. PySpark의 주요 특징빠른 데이터 처리: In-Memory(메모리 내) 연산을 지원해 속도가 빠름확장성: 클러스터를 활용해 데이터 병렬 처리 가능유연한 인터페이스: SQL, DataFrame, RDD, 머신러닝 등 다양한 기능 제공2. PySpark 설치 및 환경 설정PySpark 설치 방법터미널이나 CMD에서 아래 명령어 실행: pip install pysparkpip install findspark # Jupyter Notebook 사용 시 .. 2025. 2. 5.
[NumPy] NumPy 배열의 인덱싱과 슬라이싱 NumPy 배열에서 원하는 데이터를 추출하는 방법NumPy 배열은 Python 리스트처럼 인덱싱과 슬라이싱을 지원한다. 다만, NumPy 배열은 다차원 배열을 지원하므로 데이터를 보다 직관적이고 효율적으로 추출할 수 있다. 인덱싱과 슬라이싱은 데이터를 탐색하고 전처리할 때 매우 유용하다. 1. 인덱싱import numpy as np# 10x10 매트릭스 생성mat = np.arange(0, 100).reshape(10, 10)# 0번째 행, 1번째 열의 값 접근print(mat[0, 1]) # 출력: 1위 코드에서는 2D 배열에서 특정 요소를 추출한다. mat[0, 1]은 첫 번째 행(0)과 두 번째 열(1)에 위치한 값인 1을 반환한다. 2. 슬라이싱NumPy 배열에서 슬라이싱은 부분 배열을 추출하는.. 2025. 1. 28.
[NumPy] NumPy 배열의 모양 변경하기 (Reshaping) NumPy 배열을 원하는 형태로 변경하는 방법NumPy에서는 배열의 모양을 쉽게 변경할 수 있다. reshape() 메서드를 사용하면 1D 배열을 2D, 3D 배열 등 원하는 차원으로 변형할 수 있다. 이 방법을 사용하면 데이터를 보다 효율적으로 다룰 수 있다. import numpy as np# 1D 배열 생성arr = np.arange(0, 10)# 2x5 형태로 변환reshaped_array = arr.reshape((2, 5))print(reshaped_array)"""[[0 1 2 3 4] [5 6 7 8 9]]""" 이 예제에서:먼저 10개의 요소를 가진 1D 배열을 생성한다.그 배열을 2x5 형태의 2D 배열로 변형한다. 즉, 2개의 행과 5개의 열을 가진 배열로 변경된다.중요한 점: 변형 .. 2025. 1. 28.
[NumPy] 배열의 유용한 메서드 NumPy 에 있는 다양한 메서드를 통해 배열의 최댓값, 최솟값, 평균값 등을 손쉽게 계산할 수 있다. arr.max(): 배열에서 최댓값을 반환한다. arr.argmax(): 배열에서 최댓값이 위치한 인덱스를 반환한다.arr.min(): 배열에서 최솟값을 반환한다.arr.argmin(): 배열에서 최솟값이 위치한 인덱스 를 반환한다.arr.mean(): 배열의 평균값을 반환한다.import numpy as nparr = np.array([10, 20, 5, 40, 15])print("Max value:", arr.max()) # 최댓값: 40print("Index of max value:", arr.argmax()) # 최댓값의 인덱스: 3print("Min value:", arr.mi.. 2025. 1. 24.
반응형