pandas

pandas 문법 활용

gggg21 2024. 11. 18. 12:11

Pandas에서 제공하는 주요 메서드들

  1. 데이터 로딩 및 저장
    •   pd.read_csv(): CSV 파일을 읽어서 DataFrame으로 변환.
    •   pd.read_excel(): Excel 파일을 읽어서 DataFrame으로 변환.
    •   df.to_csv(): DataFrame을 CSV 파일로 저장.
    •   df.to_excel(): DataFrame을 Excel 파일로 저장.
  2. 기본적인 데이터 탐색
    •   df.head(): DataFrame의 첫 5개 행을 출력.
    •   df.tail(): DataFrame의 마지막 5개 행을 출력.
    •   df.info(): DataFrame의 전체적인 정보 (데이터 타입, 결측값 등) 출력.
    •   df.shape: DataFrame의 (행 수, 열 수) 반환.
    •   df.describe(): 수치형 데이터에 대한 기본 통계값 (평균, 표준편차 등) 반환.
    •   df.columns: DataFrame의 열 이름 목록을 반환.
  3. 데이터 선택 및 필터링
    •   df['column_name']: 특정 열을 선택.
    •   df.loc[]: 라벨 기반으로 행과 열을 선택.
    •   df.iloc[]: 정수 인덱스를 사용하여 행과 열을 선택.
    •   df.query(): 조건에 맞는 행을 필터링하여 반환.
    •   df[df['column_name'] > value]: 특정 조건을 만족하는 행 선택.
  4. 데이터 변형
    •   df.drop(): 특정 행 또는 열을 삭제.
    •   df.rename(): 열 이름을 변경.
    •   df.sort_values(): 특정 열을 기준으로 데이터 정렬.
    •   df.groupby(): 데이터를 그룹화하고 집계 함수 적용.
    •   df.pivot_table(): 피벗 테이블 생성.
    •   df.melt(): 데이터를 긴 형식으로 변환 (피벗 테이블의 반대 작업).
    •   df.apply(): 사용자 정의 함수나 함수를 행/열에 적용.
  5. 결측값 처리
    •   df.isnull(): 결측값 여부 확인.
    •   df.notnull(): 결측값이 아닌 값 확인.
    •   df.fillna(): 결측값을 특정 값으로 채우기.
    •   df.dropna(): 결측값이 있는 행 또는 열 삭제.
  6. 데이터 결합
    •   pd.concat(): 여러 DataFrame을 수평 또는 수직으로 결합.
    •   pd.merge(): SQL 스타일의 조인(Join)을 통해 DataFrame 결합.
    •   df.append(): 다른 DataFrame을 덧붙여 추가.
  7. 데이터 형식 변환
    •   df.astype(): 데이터 타입을 변경.
    •   df.to_datetime(): 문자열을 datetime 형식으로 변환.
    •   df.str.split(): 문자열을 분할하여 새로운 열로 분리.
    •   df.applymap(): DataFrame의 모든 원소에 함수 적용.
  8. 시계열 데이터 처리
    •   df.resample(): 시계열 데이터를 재샘플링.
    •   df.shift(): 시계열 데이터를 이동(시프트)하여 변화 분석.
    •   df.rolling(): 이동 평균 등 계산을 위해 일정 범위로 윈도우 적용.
  9. 데이터 시각화
    •   df.plot(): Pandas DataFrame에서 간단한 시각화를 생성.
    •   df.hist(): 히스토그램 시각화.
    •   df.boxplot(): 박스 플롯 시각화.
  10. Pandas 메서드의 특징
    •   다양한 기능: Pandas는 데이터 로딩, 전처리, 변환, 분석, 집계, 시각화 등 거의 모든 데이터 분석 작업을 처리할 수 있는 메서드를 제공합니다.
    •   유연성: 여러 가지 방법으로 데이터를 선택하고 조작할 수 있습니다. 예를 들어, loc, iloc, query, apply 등을 사용하여 데이터를 다양한 방식으로 필터링하거나 변형할 수 있습니다.
    •   속도: Pandas는 대용량 데이터를 처리할 때 매우 효율적입니다. 특히 apply나 map 같은 메서드를 사용하면 벡터화된 연산을 통해 빠르게 작업을 처리할 수 있습니다.
    •   쉽고 직관적: 메서드들이 직관적으로 설계되어 있어 데이터를 쉽게 분석하고 변형할 수 있습니다.