-
pandas 문법 활용
pandas
2024. 11. 18. 12:11
Pandas에서 제공하는 주요 메서드들
- 데이터 로딩 및 저장
- pd.read_csv(): CSV 파일을 읽어서 DataFrame으로 변환.
- pd.read_excel(): Excel 파일을 읽어서 DataFrame으로 변환.
- df.to_csv(): DataFrame을 CSV 파일로 저장.
- df.to_excel(): DataFrame을 Excel 파일로 저장.
- 기본적인 데이터 탐색
- df.head(): DataFrame의 첫 5개 행을 출력.
- df.tail(): DataFrame의 마지막 5개 행을 출력.
- df.info(): DataFrame의 전체적인 정보 (데이터 타입, 결측값 등) 출력.
- df.shape: DataFrame의 (행 수, 열 수) 반환.
- df.describe(): 수치형 데이터에 대한 기본 통계값 (평균, 표준편차 등) 반환.
- df.columns: DataFrame의 열 이름 목록을 반환.
- 데이터 선택 및 필터링
- df['column_name']: 특정 열을 선택.
- df.loc[]: 라벨 기반으로 행과 열을 선택.
- df.iloc[]: 정수 인덱스를 사용하여 행과 열을 선택.
- df.query(): 조건에 맞는 행을 필터링하여 반환.
- df[df['column_name'] > value]: 특정 조건을 만족하는 행 선택.
- 데이터 변형
- df.drop(): 특정 행 또는 열을 삭제.
- df.rename(): 열 이름을 변경.
- df.sort_values(): 특정 열을 기준으로 데이터 정렬.
- df.groupby(): 데이터를 그룹화하고 집계 함수 적용.
- df.pivot_table(): 피벗 테이블 생성.
- df.melt(): 데이터를 긴 형식으로 변환 (피벗 테이블의 반대 작업).
- df.apply(): 사용자 정의 함수나 함수를 행/열에 적용.
- 결측값 처리
- df.isnull(): 결측값 여부 확인.
- df.notnull(): 결측값이 아닌 값 확인.
- df.fillna(): 결측값을 특정 값으로 채우기.
- df.dropna(): 결측값이 있는 행 또는 열 삭제.
- 데이터 결합
- pd.concat(): 여러 DataFrame을 수평 또는 수직으로 결합.
- pd.merge(): SQL 스타일의 조인(Join)을 통해 DataFrame 결합.
- df.append(): 다른 DataFrame을 덧붙여 추가.
- 데이터 형식 변환
- df.astype(): 데이터 타입을 변경.
- df.to_datetime(): 문자열을 datetime 형식으로 변환.
- df.str.split(): 문자열을 분할하여 새로운 열로 분리.
- df.applymap(): DataFrame의 모든 원소에 함수 적용.
- 시계열 데이터 처리
- df.resample(): 시계열 데이터를 재샘플링.
- df.shift(): 시계열 데이터를 이동(시프트)하여 변화 분석.
- df.rolling(): 이동 평균 등 계산을 위해 일정 범위로 윈도우 적용.
- 데이터 시각화
- df.plot(): Pandas DataFrame에서 간단한 시각화를 생성.
- df.hist(): 히스토그램 시각화.
- df.boxplot(): 박스 플롯 시각화.
- Pandas 메서드의 특징
- 다양한 기능: Pandas는 데이터 로딩, 전처리, 변환, 분석, 집계, 시각화 등 거의 모든 데이터 분석 작업을 처리할 수 있는 메서드를 제공합니다.
- 유연성: 여러 가지 방법으로 데이터를 선택하고 조작할 수 있습니다. 예를 들어, loc, iloc, query, apply 등을 사용하여 데이터를 다양한 방식으로 필터링하거나 변형할 수 있습니다.
- 속도: Pandas는 대용량 데이터를 처리할 때 매우 효율적입니다. 특히 apply나 map 같은 메서드를 사용하면 벡터화된 연산을 통해 빠르게 작업을 처리할 수 있습니다.
- 쉽고 직관적: 메서드들이 직관적으로 설계되어 있어 데이터를 쉽게 분석하고 변형할 수 있습니다.