-
pandas의 데이터의 기본 seriespandas 2024. 11. 15. 09:06
Pandas의 Column과 Index 이해하기
Pandas는 데이터 분석 작업에서 자주 사용되는 강력한 라이브러리이며, 그 중심에는 Column과 Index가 있습니다. 데이터 분석에 익숙해지기 위해서는 Column과 Index가 각각 어떤 역할을 하고, 어떻게 활용되는지를 제대로 이해하는 것이 중요합니다. 엑셀의 행과 열을 다루는 것과 비슷하지만, Pandas에서는 이들에 대한 다양한 기능이 추가되어 있어 더욱 유연하게 데이터를 다룰 수 있습니다.
Column: 데이터의 속성
Pandas에서 **Column(열)**은 데이터의 속성을 나타내며, 특정한 속성에 대해 모든 데이터를 하나의 열로 정리합니다. 예를 들어, 고객 데이터를 담고 있는 테이블이라면 Name, Age, Purchase_Amount 같은 속성이 각 열이 됩니다.
Column을 다루는 주요 기능
- 열 선택: 특정 열을 선택하여 그 열에 해당하는 데이터만 추출할 수 있습니다.
df['Name'] # 'Name' 열만 선택
2. 열 추가 및 수정: 새로운 열을 추가하거나 기존 열의 값을 수정할 수 있습니다.
df['New_Column'] = df['Age'] * 2 # Age 열의 값을 두 배로 한 새로운 열 추가
3. 열 삭제: 필요 없는 열을 삭제하여 데이터 크기를 줄이거나, 분석에 집중할 수 있습니다.
df.drop('Purchase_Amount', axis=1, inplace=True)
Index: 데이터의 위치와 참조
**Index(인덱스)**는 각 데이터가 위치한 행을 고유하게 식별할 수 있도록 해줍니다. 기본적으로 0부터 시작하는 숫자형 인덱스가 자동으로 지정되지만, 특정 열을 인덱스로 설정하여 보다 의미 있는 인덱스를 사용할 수도 있습니다. 예를 들어, 고객 ID를 인덱스로 설정하면 고객 정보를 참조할 때 유용합니다.
Index를 다루는 주요 기능
- 인덱스 설정 및 변경: 특정 열을 인덱스로 설정하거나, 기존 인덱스를 다른 열로 변경할 수 있습니다.
df.set_index('Customer_ID', inplace=True) # 'Customer_ID' 열을 인덱스로 설정
인덱스 초기화: 기존 인덱스를 제거하고 다시 기본 숫자 인덱스로 돌아갈 수 있습니다.
df.reset_index(inplace=True) # 인덱스를 초기화하여 숫자 인덱스로 변경
인덱스를 사용한 데이터 선택: 인덱스 값을 사용하여 특정 행에 접근하거나, 슬라이싱을 통해 여러 행을 한꺼번에 선택할 수 있습니다.
df.loc['Customer_123'] # 인덱스가 'Customer_123'인 행 선택
Column과 Index의 차이점과 연계 사용
- Column은 데이터의 속성을 의미하며, 분석 대상이 되는 데이터의 특정 특성이나 값을 나타냅니다.
- Index는 데이터의 위치를 고유하게 지정하는 역할을 합니다. 이를 통해 데이터프레임을 보다 빠르고 유연하게 탐색할 수 있습니다.
Column과 Index를 함께 잘 사용하면 데이터 선택과 필터링을 훨씬 효율적으로 할 수 있으며, 대량의 데이터를 다룰 때도 정확성을 높일 수 있습니다. 예를 들어, 특정 인덱스 값에 해당하는 행의 특정 열 데이터를 쉽게 참조할 수 있어 작업 속도가 향상됩니다.
마무리
Pandas에서 Column과 Index는 단순한 행과 열 이상의 기능을 합니다. 적절히 활용하면 복잡한 데이터 전처리와 분석을 훨씬 더 효율적으로 수행할 수 있습니다. 데이터를 체계적으로 관리하고 분석하고 싶다면, Column과 Index의 개념과 기능을 잘 이해하고 사용해보세요.
Series의 수정
import pandas as pd data = [1, '운동'] pd_data = pd.Series(data) print("Original Series:\n", pd_data) # pd_data의 값을 수정 pd_data.loc[0] = 2 # 첫 번째 인덱스 값을 2로 수정 pd_data.loc[1] = '게임' # 두 번째 인덱스 값을 '게임'으로 수정
'pandas' 카테고리의 다른 글
탐색적 데이터 분석의 이해하기 & pandas에서 DataFrame으로 읽기 (1) 2024.11.15 pandas.DataFrame (1) 2024.11.15 pandas의 기본 이해 (1) 2024.11.15 json 다루기 - pandas (0) 2024.11.14 XML형식의 장점 (1) 2024.11.14