-
pandas의 기본적인 보는 법pandas 2024. 11. 18. 09:57
Pandas에서 CSV 파일 읽기 및 데이터 크기 확인하기
데이터 분석에서 가장 많이 사용하는 데이터 형식 중 하나는 CSV 파일입니다. Pandas는 CSV 파일을 손쉽게 읽어들여 데이터 분석에 활용할 수 있는 read_csv() 함수를 제공합니다. 이 함수를 사용하면 CSV 파일을 DataFrame 형식으로 로드하여 분석 작업을 진행할 수 있습니다.
1. CSV 파일 읽기 - pd.read_csv()
Pandas의 read_csv() 함수는 CSV 파일을 읽어서 DataFrame 객체로 반환합니다. read_csv()를 사용하려면 먼저 Pandas 라이브러리를 import해야 합니다.
import pandas as pd # CSV 파일을 DataFrame으로 읽기 data_Table_name = pd.read_csv("파일_경로.csv") # 로드한 DataFrame 출력 print(data_Table_name)
위 코드는 지정한 CSV 파일을 읽고, 그 내용을 DataFrame 형식으로 저장합니다. 반환된 DataFrame은 다양한 데이터 분석 작업에 사용됩니다.
2. read_csv() 함수의 다양한 매개변수
pd.read_csv()는 CSV 파일을 읽어오는 다양한 옵션을 제공하며, 이를 통해 데이터 로드 방식을 세밀하게 조정할 수 있습니다. 대표적인 매개변수는 다음과 같습니다:
- sep: CSV 파일의 구분자를 지정합니다. 기본값은 , (쉼표)입니다. 만약 탭으로 구분된 데이터라면 **\t**로 지정할 수 있습니다.
data_Table_name = pd.read_csv("파일_경로.csv", sep="\t")
- header: 데이터의 헤더 행을 지정합니다. 기본값은 첫 번째 행(0번째 인덱스)입니다. 헤더가 다른 위치에 있을 경우 header=2와 같이 설정할 수 있습니다.
- usecols: 특정 열만 읽고 싶은 경우 사용합니다. 예를 들어, "Name"과 "Age" 열만 읽고 싶다면:
data_Table_name = pd.read_csv("파일_경로.csv", usecols=["Name", "Age"])
dtype: 각 열의 데이터 타입을 지정합니다. 예를 들어, "Age" 열을 정수형으로 읽고 싶다면:
data_Table_name = pd.read_csv("파일_경로.csv", dtype={"Age": int})
index_col: 특정 열을 DataFrame의 인덱스로 사용하고 싶을 때 사용합니다. 예를 들어 "ID" 열을 인덱스로 지정하려면:
data_Table_name = pd.read_csv("파일_경로.csv", index_col="ID")
encoding: 파일 인코딩을 지정합니다. 기본값은 utf-8이지만, 다른 인코딩 방식이 필요할 때 사용합니다. 예를 들어, 한국어가 포함된 파일이라면 encoding="euc-kr"을 사용합니다.
data_Table_name = pd.read_csv("파일_경로.csv", encoding="euc-kr")
3. 데이터 크기 확인하기
CSV 파일을 읽은 후에는 데이터를 잘 이해하기 위해 그 크기와 구성 요소를 확인하는 것이 중요합니다. Pandas에서는 다양한 방법으로 데이터 크기를 확인할 수 있습니다.
- data_Table_name.info(): DataFrame의 전체적인 정보를 제공합니다. 데이터 타입, 결측값의 개수, 메모리 사용량 등을 확인할 수 있습니다.
data_Table_name.info()
data_Table_name.shape: DataFrame의 행(row) 수와 열(column) 수를 간단하게 확인할 수 있습니다. 반환 값은 (행 수, 열 수) 형태의 튜플입니다.
print(data_Table_name.shape)
4. Table이란?
Pandas에서 DataFrame은 Table을 의미합니다. 쉽게 말해, 데이터는 **행(row)**과 **열(column)**로 이루어진 표 형태로 관리됩니다. 이를 엑셀(Excel) 파일과 비교하면, 엑셀 시트에 데이터를 입력하는 방식과 유사합니다. 각 열은 특정 속성을 나타내고, 각 행은 개별 데이터를 나타냅니다.
결론
Pandas는 read_csv() 함수를 통해 CSV 파일을 쉽게 읽어들여 DataFrame 객체로 변환하고, 다양한 매개변수를 활용하여 데이터를 보다 정밀하게 처리할 수 있습니다. 또한, **info()**와 **shape**와 같은 메서드를 통해 데이터의 크기와 구조를 빠르게 파악할 수 있어 데이터 분석 작업의 첫걸음을 쉽게 시작할 수 있습니다.
엑셀을 떠올리면 쉽게 이해할 수 있는 Table 형식의 데이터는 Pandas에서 매우 유용하게 사용됩니다. 이를 활용해 데이터 전처리 및 분석 작업을 효율적으로 진행해 보세요!
'pandas' 카테고리의 다른 글
피어슨 상관계수 1 == 완벽 / 0 == 상관 X / -1 == 반대 (0) 2024.11.18 pandas 문법 활용 (0) 2024.11.18 탐색적 데이터 분석의 이해하기 & pandas에서 DataFrame으로 읽기 (1) 2024.11.15 pandas.DataFrame (1) 2024.11.15 pandas의 데이터의 기본 series (4) 2024.11.15