pandas의 기본적인 보는 법

pandas 2024. 11. 18. 09:57

Pandas에서 CSV 파일 읽기 및 데이터 크기 확인하기

데이터 분석에서 가장 많이 사용하는 데이터 형식 중 하나는 CSV 파일입니다. Pandas는 CSV 파일을 손쉽게 읽어들여 데이터 분석에 활용할 수 있는 read_csv() 함수를 제공합니다. 이 함수를 사용하면 CSV 파일을 DataFrame 형식으로 로드하여 분석 작업을 진행할 수 있습니다.

1. CSV 파일 읽기 - pd.read_csv()

Pandas의 read_csv() 함수는 CSV 파일을 읽어서 DataFrame 객체로 반환합니다. read_csv()를 사용하려면 먼저 Pandas 라이브러리를 import해야 합니다.

import pandas as pd

# CSV 파일을 DataFrame으로 읽기
data_Table_name = pd.read_csv("파일_경로.csv")

# 로드한 DataFrame 출력
print(data_Table_name)

위 코드는 지정한 CSV 파일을 읽고, 그 내용을 DataFrame 형식으로 저장합니다. 반환된 DataFrame은 다양한 데이터 분석 작업에 사용됩니다.

2. read_csv() 함수의 다양한 매개변수

pd.read_csv()는 CSV 파일을 읽어오는 다양한 옵션을 제공하며, 이를 통해 데이터 로드 방식을 세밀하게 조정할 수 있습니다. 대표적인 매개변수는 다음과 같습니다:

sep: CSV 파일의 구분자를 지정합니다. 기본값은 , (쉼표)입니다. 만약 탭으로 구분된 데이터라면 **\t**로 지정할 수 있습니다.

data_Table_name = pd.read_csv("파일_경로.csv", sep="\t")

header: 데이터의 헤더 행을 지정합니다. 기본값은 첫 번째 행(0번째 인덱스)입니다. 헤더가 다른 위치에 있을 경우 header=2와 같이 설정할 수 있습니다.
usecols: 특정 열만 읽고 싶은 경우 사용합니다. 예를 들어, "Name"과 "Age" 열만 읽고 싶다면:

data_Table_name = pd.read_csv("파일_경로.csv", usecols=["Name", "Age"])

dtype: 각 열의 데이터 타입을 지정합니다. 예를 들어, "Age" 열을 정수형으로 읽고 싶다면:

data_Table_name = pd.read_csv("파일_경로.csv", dtype={"Age": int})

index_col: 특정 열을 DataFrame의 인덱스로 사용하고 싶을 때 사용합니다. 예를 들어 "ID" 열을 인덱스로 지정하려면:

data_Table_name = pd.read_csv("파일_경로.csv", index_col="ID")

encoding: 파일 인코딩을 지정합니다. 기본값은 utf-8이지만, 다른 인코딩 방식이 필요할 때 사용합니다. 예를 들어, 한국어가 포함된 파일이라면 encoding="euc-kr"을 사용합니다.

data_Table_name = pd.read_csv("파일_경로.csv", encoding="euc-kr")

3. 데이터 크기 확인하기

CSV 파일을 읽은 후에는 데이터를 잘 이해하기 위해 그 크기와 구성 요소를 확인하는 것이 중요합니다. Pandas에서는 다양한 방법으로 데이터 크기를 확인할 수 있습니다.

data_Table_name.info(): DataFrame의 전체적인 정보를 제공합니다. 데이터 타입, 결측값의 개수, 메모리 사용량 등을 확인할 수 있습니다.

data_Table_name.info()

data_Table_name.shape: DataFrame의 행(row) 수와 열(column) 수를 간단하게 확인할 수 있습니다. 반환 값은 (행 수, 열 수) 형태의 튜플입니다.

print(data_Table_name.shape)

4. Table이란?

Pandas에서 DataFrame은 Table을 의미합니다. 쉽게 말해, 데이터는 **행(row)**과 **열(column)**로 이루어진 표 형태로 관리됩니다. 이를 엑셀(Excel) 파일과 비교하면, 엑셀 시트에 데이터를 입력하는 방식과 유사합니다. 각 열은 특정 속성을 나타내고, 각 행은 개별 데이터를 나타냅니다.

결론

Pandas는 read_csv() 함수를 통해 CSV 파일을 쉽게 읽어들여 DataFrame 객체로 변환하고, 다양한 매개변수를 활용하여 데이터를 보다 정밀하게 처리할 수 있습니다. 또한, **info()**와 **shape**와 같은 메서드를 통해 데이터의 크기와 구조를 빠르게 파악할 수 있어 데이터 분석 작업의 첫걸음을 쉽게 시작할 수 있습니다.

엑셀을 떠올리면 쉽게 이해할 수 있는 Table 형식의 데이터는 Pandas에서 매우 유용하게 사용됩니다. 이를 활용해 데이터 전처리 및 분석 작업을 효율적으로 진행해 보세요!

'pandas' 카테고리의 다른 글

피어슨 상관계수 1 == 완벽 / 0 == 상관 X / -1 == 반대 (0)	2024.11.18
pandas 문법 활용 (0)	2024.11.18
탐색적 데이터 분석의 이해하기 & pandas에서 DataFrame으로 읽기 (1)	2024.11.15
pandas.DataFrame (1)	2024.11.15
pandas의 데이터의 기본 series (4)	2024.11.15

ABOUT ME

gggg gggg

Pandas에서 CSV 파일 읽기 및 데이터 크기 확인하기

1. CSV 파일 읽기 - pd.read_csv()

2. read_csv() 함수의 다양한 매개변수

3. 데이터 크기 확인하기

4. Table이란?

결론

'pandas' 카테고리의 다른 글

티스토리툴바

ABOUT ME

Pandas에서 CSV 파일 읽기 및 데이터 크기 확인하기

1. CSV 파일 읽기 - pd.read_csv()

2. read_csv() 함수의 다양한 매개변수

3. 데이터 크기 확인하기

4. Table이란?

결론

'pandas' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바