ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • pandas의 기본적인 보는 법
    pandas 2024. 11. 18. 09:57

    Pandas에서 CSV 파일 읽기 및 데이터 크기 확인하기

    데이터 분석에서 가장 많이 사용하는 데이터 형식 중 하나는 CSV 파일입니다. Pandas는 CSV 파일을 손쉽게 읽어들여 데이터 분석에 활용할 수 있는 read_csv() 함수를 제공합니다. 이 함수를 사용하면 CSV 파일을 DataFrame 형식으로 로드하여 분석 작업을 진행할 수 있습니다.

    1. CSV 파일 읽기 - pd.read_csv()

    Pandas의 read_csv() 함수는 CSV 파일을 읽어서 DataFrame 객체로 반환합니다. read_csv()를 사용하려면 먼저 Pandas 라이브러리를 import해야 합니다.

     

    import pandas as pd
    
    # CSV 파일을 DataFrame으로 읽기
    data_Table_name = pd.read_csv("파일_경로.csv")
    
    # 로드한 DataFrame 출력
    print(data_Table_name)

    위 코드는 지정한 CSV 파일을 읽고, 그 내용을 DataFrame 형식으로 저장합니다. 반환된 DataFrame은 다양한 데이터 분석 작업에 사용됩니다.

     


    2. read_csv() 함수의 다양한 매개변수

    pd.read_csv()는 CSV 파일을 읽어오는 다양한 옵션을 제공하며, 이를 통해 데이터 로드 방식을 세밀하게 조정할 수 있습니다. 대표적인 매개변수는 다음과 같습니다:

    • sep: CSV 파일의 구분자를 지정합니다. 기본값은 , (쉼표)입니다. 만약 탭으로 구분된 데이터라면 **\t**로 지정할 수 있습니다.
    data_Table_name = pd.read_csv("파일_경로.csv", sep="\t")

     

    • header: 데이터의 헤더 행을 지정합니다. 기본값은 첫 번째 행(0번째 인덱스)입니다. 헤더가 다른 위치에 있을 경우 header=2와 같이 설정할 수 있습니다.
    • usecols: 특정 열만 읽고 싶은 경우 사용합니다. 예를 들어, "Name"과 "Age" 열만 읽고 싶다면:
    data_Table_name = pd.read_csv("파일_경로.csv", usecols=["Name", "Age"])

     

     

    dtype: 각 열의 데이터 타입을 지정합니다. 예를 들어, "Age" 열을 정수형으로 읽고 싶다면:

    data_Table_name = pd.read_csv("파일_경로.csv", dtype={"Age": int})

     

    index_col: 특정 열을 DataFrame의 인덱스로 사용하고 싶을 때 사용합니다. 예를 들어 "ID" 열을 인덱스로 지정하려면:

    data_Table_name = pd.read_csv("파일_경로.csv", index_col="ID")

     

    encoding: 파일 인코딩을 지정합니다. 기본값은 utf-8이지만, 다른 인코딩 방식이 필요할 때 사용합니다. 예를 들어, 한국어가 포함된 파일이라면 encoding="euc-kr"을 사용합니다.

    data_Table_name = pd.read_csv("파일_경로.csv", encoding="euc-kr")

     

    3. 데이터 크기 확인하기

    CSV 파일을 읽은 후에는 데이터를 잘 이해하기 위해 그 크기와 구성 요소를 확인하는 것이 중요합니다. Pandas에서는 다양한 방법으로 데이터 크기를 확인할 수 있습니다.

    • data_Table_name.info(): DataFrame의 전체적인 정보를 제공합니다. 데이터 타입, 결측값의 개수, 메모리 사용량 등을 확인할 수 있습니다.
    data_Table_name.info()

     

    data_Table_name.shape: DataFrame의 행(row) 수열(column) 수를 간단하게 확인할 수 있습니다. 반환 값은 (행 수, 열 수) 형태의 튜플입니다.

    print(data_Table_name.shape)

     

    4. Table이란?

    Pandas에서 DataFrame은 Table을 의미합니다. 쉽게 말해, 데이터는 **행(row)**과 **열(column)**로 이루어진 표 형태로 관리됩니다. 이를 엑셀(Excel) 파일과 비교하면, 엑셀 시트에 데이터를 입력하는 방식과 유사합니다. 각 열은 특정 속성을 나타내고, 각 행은 개별 데이터를 나타냅니다.


    결론

    Pandas는 read_csv() 함수를 통해 CSV 파일을 쉽게 읽어들여 DataFrame 객체로 변환하고, 다양한 매개변수를 활용하여 데이터를 보다 정밀하게 처리할 수 있습니다. 또한, **info()**와 **shape**와 같은 메서드를 통해 데이터의 크기와 구조를 빠르게 파악할 수 있어 데이터 분석 작업의 첫걸음을 쉽게 시작할 수 있습니다.


    엑셀을 떠올리면 쉽게 이해할 수 있는 Table 형식의 데이터는 Pandas에서 매우 유용하게 사용됩니다. 이를 활용해 데이터 전처리 및 분석 작업을 효율적으로 진행해 보세요!

Designed by Tistory.