pandas
-
z-scorepandas 2024. 11. 29. 17:19
공식 z=x−mmsdz = \frac{x - m}{\text{msd}}z=msdx−m는 Z-점수(Z-score)를 계산하는 데 사용됩니다. 이는 특정 값이 데이터의 평균에서 얼마나 떨어져 있는지를 표준편차를 기준으로 나타낸 값입니다.변수 설명xxx: 개별 데이터 값 (예: 특정 관찰값).mmm: 평균(mean) 값. 데이터의 중심값입니다.msd\text{msd}msd: 표준편차(standard deviation, σ\sigmaσ). 데이터 값들이 평균에서 얼마나 흩어져 있는지 측정합니다.Z-점수 공식z=x−mmsdz = \frac{x - m}{\text{msd}}z=msdx−m의미: 특정 데이터 xxx가 평균 mmm에서 몇 표준편차만큼 떨어져 있는지 나타냅니다.Z-점수의 해석:z>0z > 0z>0: ..
-
데이터의 전체 카테고리pandas 2024. 11. 29. 03:32
수치형 데이터와 범주형 데이터: 차이점과 특징데이터 분석에서 중요한 첫 번째 단계는 데이터를 수치형 데이터와 범주형 데이터로 나누는 것입니다. 두 가지 유형의 데이터는 그 특성과 처리 방법에서 큰 차이를 보입니다. 이번 블로그에서는 수치형 데이터와 범주형 데이터의 차이점과 각각의 특징에 대해 설명하겠습니다.1. 수치형 데이터 (Numerical Data)수치형 데이터는 말 그대로 숫자로 표현되는 데이터입니다. 이 데이터는 연산이 가능하고, 수학적 계산을 통해 다양한 분석을 할 수 있습니다. 수치형 데이터는 연속형과 이산형 두 가지로 나눠집니다.1-1. 연속형 데이터 (Continuous Data)연속형 데이터는 수치가 무한히 분포할 수 있는 데이터입니다. 예를 들어, 체중, 키, 시간 등은 연속적인 값을..
-
plotly의 기본 method들pandas 2024. 11. 28. 10:03
Plotly의 plotly.graph_objects를 사용한 그래프 작성 순서Plotly의 graph_objects를 사용해 그래프를 작성하는 단계는 아래와 같습니다. 각 단계를 이해하기 쉽도록 설명과 코드 예제를 제공합니다.1. 기본 Figure 객체 생성그래프를 생성하려면 먼저 빈 Figure 객체를 만듭니다. import plotly.graph_objects as go# 빈 Figure 생성fig = go.Figure() 2. 그래프 데이터 추가 (add_trace)add_trace 메서드를 사용하여 그래프 데이터를 추가합니다. 여러 데이터를 추가하려면 각각 add_trace를 호출해야 합니다.예제: Scatter(꺾은선 그래프) 데이터 추가# 첫 번째 데이터 추가 (꺾은선 그래프)fig.add_t..
-
plotly의 이해pandas 2024. 11. 28. 09:24
Plotly는 다양한 요구에 맞게 그래프를 생성할 수 있도록 모듈별로 나뉘어 있습니다. 이 각각의 모듈은 특정한 용도에 최적화되어 있으며, 단계별로 복잡한 그래프를 생성하거나 인터랙티브하게 만들 수 있습니다.Plotly의 주요 모듈 및 역할1. plotly.express특징:간단하고 빠르게 그래프를 생성하기 위한 고수준 API.데이터프레임 기반으로 설계되어 pandas와 잘 연동됨.적은 코드로 다양한 시각화를 빠르게 생성import plotly.express as px# 데이터 예제import pandas as pddf = pd.DataFrame({'x': [1, 2, 3], 'y': [4, 5, 6]})# 라인 차트fig = px.line(df, x='x', y='y', title="Simple Lin..
-
plotly == python의 데이터 시각화pandas 2024. 11. 26. 17:59
pip install plotlyimport plotly.express as pximport pandas as pd 3. 기본적인 차트 예제1) 꺾은선 그래프 (Line Chart)시계열 데이터나 연속적인 데이터 변화를 시각화할 때 사용합니다 df = pd.DataFrame({ "Date": ["2024-01-01", "2024-01-02", "2024-01-03"], "Sales": [200, 300, 400]})fig = px.line(df, x="Date", y="Sales", title="Daily Sales Over Time")fig.show() 2) 막대 그래프 (Bar Chart)카테고리 데이터의 크기 비교를 시각화합니다df = pd.DataFrame({ "Category":..
-
plotly의 매력pandas 2024. 11. 26. 09:17
lotly의 매력은 한마디로 **"코드 몇 줄로 만드는 인터랙티브하고 고급스러운 시각화"**입니다. 단순히 데이터를 보여주는 도구가 아니라, 사용자와 소통할 수 있는 그래프를 제공하는 것이 핵심이에요. 다음은 Plotly의 주요 매력을 정리한 내용입니다. 1. 인터랙티브 그래프Plotly의 모든 그래프는 기본적으로 인터랙티브합니다:줌/팬: 특정 구간을 확대하거나 이동 가능.데이터 포인트 툴팁: 마우스를 올리면 데이터 값이 바로 표시.범례 클릭: 범례를 클릭하여 특정 데이터 시리즈를 숨기거나 강조.import plotly.express as pxdf = px.data.gapminder()fig = px.scatter(df, x="gdpPercap", y="lifeExp", color="continent",..
-
전처리의 마지막은 언제나 시각화pandas 2024. 11. 25. 17:50
1. Matplotlib Description: Matplotlib은 Python에서 데이터를 시각화하기 위한 가장 기본적이고 널리 사용되는 라이브러리입니다. 세부적인 커스터마이징이 가능하며, 2D 그래프를 그리는 데 주로 사용됩니다. 장점: 완벽한 제어 가능 (축, 라벨, 색상, 선 스타일 등). 다양한 플롯 유형 지원 (라인 플롯, 바 플롯, 히스토그램, 산점도 등). Seaborn과 같은 고수준 라이브러리의 기반 역할. 단점: 복잡한 플롯은 코드가 길어질 수 있음. 기본 디자인이 단순해서 시각적으로 매력적이지 않을 수 있음.import matplotlib.pyplot as plt# 샘플 데이터x = [1, 2, 3, 4, 5]y = [2, 3, 5, 7, 11]# 라인 플롯plt.pl..
-
Flourishpandas 2024. 11. 25. 09:26
Flourish의 Chart Race 생성 방식데이터 업로드:Excel 파일, CSV 파일, 또는 직접 데이터를 입력할 수 있습니다.Chart Race를 만들기 위해서는 보통 다음 형식의 데이터가 필요합니다:시간 축: 예를 들어 연도, 월, 일 등.카테고리: 예를 들어 국가, 브랜드, 팀 이름 등.값(Value): 차트에서 변화하는 데이터 값.템플릿 선택:Flourish는 다양한 시각화 템플릿을 제공합니다.Chart Race를 만들기 위해 "Bar Chart Race" 템플릿을 선택합니다.설정 조정:업로드한 데이터를 Chart Race 템플릿에 연결합니다.시간 축과 카테고리, 값을 매핑합니다.색상, 애니메이션 속도, 제목 등의 시각적 요소를 사용자 정의할 수 있습니다.미리보기와 공유:설정이 완료되면 Ch..