본문 바로가기
IT/통계_용어

[통계][용어] Shapiro-Wilk Test(샤피로-윌크 검정)

by Moons0827 2024. 7. 20.
반응형


Shapiro-Wilk Test(샤피로-윌크 검정)는 주어진 데이터가 정규 분포를 따르는지를 검정하는 통계적 방법 중 하나입니다. 이 검정은 특히 소규모 표본에 대해 강력한 성능을 보여줍니다. p-value > 0.05이면 귀무가설(데이터가 정규 분포를 따른다)을 기각하지 않고, p-value ≤ 0.05(데이터가 정규 분포를 따른다)이면 귀무가설을 기각합니다.


Shapiro-Wilk 검정은 1965년에 Shapiro와 Wilk에 의해 제안된 방법으로, 데이터의 정규성을 검정하기 위해 사용됩니다

가설은 다음과 같습니다.

- 귀무가설(H0): 데이터가 정규 분포를 따른다.

- 대립가설(H1): 데이터가 정규 분포를 따르지 않는다.


 

Shapiro-Wilk 검정


검정 절차

1. 데이터 정렬

데이터 X1,X2,...,Xn을 오름차순으로 정렬합니다.

2. 계수 개산

정규 분포의 기대치와 관련된 계수를 계산합니다. 이 계수들은 정규 분포를 따르는 데이터에서 기대할 수 있는 값들입니다.

3. 검정 통계량 계산

정렬된 데이터와 계산된 계수를 사용하여 검정 통계량 W를 계산합니다. 이 값은 데이터가 정규 분포를 얼마나 잘 따르는지를 나타냅니다.

식은 다음과 같습니다.

 

4. p-value 계산

검정 통계량 W에 대응하는 p-value를 계산합니다. 이 p-value는 데이터가 정규 분포를 따를 확률을 나타냅니다.

식은 다음과 같습니다.


해석

p-value > 0.05

귀무가설을 기각하지 않습니다. 이는 데이터가 정규 분포를 따른다는 충분한 증거가 없음을 의미합니다.

p-value ≤ 0.05 

귀무가설을 기각합니다. 이는 데이터가 정규 분포를 따르지 않는다는 충분한 증거가 있음을 의미합니다.


Shapiro-Wilk Test(샤피로-윌크 검정)의  장점

1. 소규모 데이터에 유용

 다른 정규성 검정보다 작은 표본 크기에서도 유효합니다.

2. 강력한 성능

데이터가 정규 분포를 따르는지 여부를 정확하게 평가합니다.


Shapiro-Wilk Test(샤피로-윌크 검정)의  단점

1. 큰 데이터 세트에서 p-value가 작게 나올 수 있음

 큰 데이터 세트에서는 정규성을 만족해도 귀무가설을 기각할 수 있습니다.

2. 극단치에 민감

데이터에 극단치가 있으면 결과에 영향을 줄 수 있습니다.


코드 예시

#scipy.stats 모듈에서 shapiro 함수를 불러옵니다.
import scipy.stats as stats

#샘플 데이터 리스트 data를 정의합니다.
data = [4.8, 5.1, 5.6, 5.9, 6.1, 6.5, 6.8, 7.1, 7.5]

#shapiro 함수를 사용하여 Shapiro-Wilk 검정을 수행합니다. 결과는 검정 통계량 stat과 p-value p로 반환됩니다.
stat, p = stats.shapiro(data)

#p-value를 기준으로 데이터가 정규 분포를 따르는지 여부를 출력합니다.
print('통계량=%.3f, p-value=%.3f' % (stat, p))
if p > 0.05:
    print('샘플이 정규 분포를 따릅니다 (귀무가설 기각 안함)')
else:
    print('샘플이 정규 분포를 따르지 않습니다 (귀무가설 기각)')

 

 

반응형

'IT > 통계_용어' 카테고리의 다른 글

[통계][용어] Kolmogorov-Smirnov Test(KS 검정)  (0) 2024.07.20

댓글