ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 검정통계량: 통계적 검정에서 중요한 개념
    카테고리 없음 2025. 4. 17. 15:15

    통계학에서 검정통계량(Test Statistic)은 주어진 데이터가 어떤 가설검정하기 위해 사용되는 핵심적인 값입니다. 이 값은 우리가 설정한 귀무가설(null hypothesis)을 채택할지, 아니면 대립가설(alternative hypothesis)을 채택할지 결정하는 중요한 기준이 돼요.

    오늘은 검정통계량이 무엇인지, 그리고 어떻게 활용되는지에 대해 쉽게 설명해보겠습니다.


    1. 검정통계량이란?

    검정통계량은 주어진 데이터로부터 계산되는 수치적 지표로, 특정 가설이 맞는지를 검토하는 데 사용됩니다. 이 값은 귀무가설이 참일 때, 데이터를 통해 우리가 얼마나 그 가설로부터 벗어났는지를 나타냅니다.

    • 귀무가설(H₀): "차이가 없다", "효과가 없다", "변화가 없다"는 가설
    • 대립가설(H₁): "차이가 있다", "효과가 있다", "변화가 있다"는 가설

    검정통계량의 값은 Z, t, χ²와 같은 여러 형태로 존재할 수 있으며, 이는 검정 방법에 따라 다릅니다.

     

    2. 검정통계량의 종류

    검정통계량은 주로 정규분포 또는 t-분포와 같은 분포를 따릅니다. 각각의 검정통계량은 특정 가설 검정에서 사용됩니다.

    2.1 Z-검정 통계량

    Z-검정은 모집단의 표준편차를 알고 있는 경우에 사용되며, 검정통계량은 다음과 같습니다:

    import numpy as np
    
    # 예시 값들
    sample_mean = 94       # 표본 평균
    population_mean = 100  # 모집단 평균 (귀무가설)
    std_dev = 15           # 모집단 표준편차
    sample_size = 10       # 표본 크기
    
    # Z-검정 통계량 계산
    z_statistic = (sample_mean - population_mean) / (std_dev / np.sqrt(sample_size))
    t_statistic = (sample_mean - population_mean) / (sample_std / np.sqrt( len(sample) ))
    
    print("Z-검정 통계량:", z_statistic)

     

    시계열 데이터와 검정통계량

    시계열 데이터에서도 검정통계량은 유용하게 사용될 수 있습니다. 예를 들어, 이동평균선을 구하고, 이를 모집단 평균(예: 1년 동안의 평균)과 비교하여 변화가 유의미한지 여부를 검정할 수 있습니다. 이런 경우에 t-검정이나 Z-검정을 사용하여, 이동평균이 주어진 평균과 차이가 있는지 검정할 수 있습니다.

    시계열 데이터를 위한 검정통계량 사용 예시

    1. 주식 가격의 평균 변화:
      • 귀무가설(H₀): 주식의 1주 평균1년 평균이 차이가 없다.
      • 대립가설(H₁): 주식의 1주 평균1년 평균이 유의미하게 다르다.
      • 이때, 1주 평균1년 평균을 비교하여 검정통계량을 구하고, 이를 통해 귀무가설을 기각할지 결정할 수 있습니다.
    2. 기후 데이터의 변화:
      • 귀무가설(H₀): 기온의 1년 평균현재 1주 평균이 동일하다.
      • 대립가설(H₁): 기온의 1년 평균현재 1주 평균이 다르다.
      • t-검정 또는 Z-검정을 통해, 1주 평균1년 평균과 차이가 있는지 검정통계량을 계산하여 결과를 분석합니다.

    결론

    시계열 데이터에서도 검정통계량은 가설을 검증하는 데 중요한 역할을 합니다. 이동평균선, 특정 시간 구간의 평균값을 비교하는 등, 시계열 분석에서 모집단 평균과 비교하여 차이가 유의미한지 분석할 때 사용됩니다. 따라서 시계열 데이터를 다룰 때도 검정통계량을 통해 유의미한 변화패턴을 검정할 수 있다는 점이 매우 중요합니다.

     

    *Z-검정 (Z-test)**와 **T-검정 (T-test)**가 나뉘는 이유는 주로 표본의 크기모집단의 표준편차 정보에 따라 달라집니다. 이 두 검정은 모두 검정통계량을 계산하는 방식에서 차이가 있는데, 그 이유를 살펴보면:

    1. 모집단 표준편차 정보의 유무:

    • Z-검정모집단의 표준편차가 알려져 있을 때 사용합니다. 이는 이론적으로 모집단에 대한 충분한 정보가 주어졌을 때 적용할 수 있습니다.
    • T-검정모집단의 표준편차가 알려지지 않고 표본의 표준편차로 추정해야 할 때 사용합니다. 실제로 대부분의 경우 모집단의 표준편차는 알려져 있지 않으므로, 표본을 통해 추정한 표준편차를 사용해야 합니다.

    2. 표본 크기:

    • Z-검정은 표본 크기가 크게 30 이상일 때 사용합니다. 큰 표본에서는 중심극한정리에 의해 표본의 평균 분포가 정규분포에 근접하게 되기 때문에, 모집단의 표준편차를 사용하여 검정을 할 수 있습니다.
    • T-검정은 표본 크기가 작은 경우(보통 30개 미만)에도 사용됩니다. 작은 표본에서는 표본이 모집단을 대표하는 정도가 불확실하기 때문에, 표본의 표준편차로 검정통계량을 계산하고, 이를 t-분포로 비교합니다.

    3. 분포의 차이:

    • Z-검정에서 사용하는 Z-분포는 정규분포로, 표본 크기가 크면 거의 정규분포를 따르게 됩니다. 표본이 충분히 크다면, 표본의 평균 분포는 정규분포에 근사하게 되기 때문에 Z-검정을 사용할 수 있습니다.
    • T-검정에서는 T-분포를 사용합니다. T-분포는 표본 크기가 작을 때 더 뾰족하고 두꺼운 꼬리를 가진 분포입니다. 표본 크기가 커질수록 T-분포는 Z-분포와 비슷해지며, 그 이유는 표본 평균이 더 정밀해지기 때문입니다.

    4. Z와 T 검정의 사용 조건:

    • Z-검정: 모집단의 표준편차가 알려져 있고, 표본 크기가 충분히 크다면 Z-검정을 사용합니다.
    • T-검정: 모집단의 표준편차를 모를 때나 표본 크기가 작을 때는 T-검정을 사용합니다.

    결론:

    • Z-검정T-검정은 둘 다 모집단 평균에 대한 가설을 검증하는 방법이지만, 모집단의 표준편차 정보표본 크기가 중요한 역할을 합니다. 모집단의 표준편차가 알려져 있고 표본 크기가 크면 Z-검정을 사용하고, 표본 크기가 작거나 모집단의 표준편차가 알려지지 않으면 T-검정을 사용합니다

     

Designed by Tistory.