Shapiro-Wilk Test(샤피로-윌크 검정)는 주어진 데이터가 정규 분포를 따르는지를 검정하는 통계적 방법 중 하나입니다. 이 검정은 특히 소규모 표본에 대해 강력한 성능을 보여줍니다. p-value > 0.05이면 귀무가설(데이터가 정규 분포를 따른다)을 기각하지 않고, p-value ≤ 0.05(데이터가 정규 분포를 따른다)이면 귀무가설을 기각합니다.
Shapiro-Wilk 검정은 1965년에 Shapiro와 Wilk에 의해 제안된 방법으로, 데이터의 정규성을 검정하기 위해 사용됩니다
가설은 다음과 같습니다.
- 귀무가설(H0): 데이터가 정규 분포를 따른다.
- 대립가설(H1): 데이터가 정규 분포를 따르지 않는다.
검정 절차
1. 데이터 정렬
데이터 X1,X2,...,Xn을 오름차순으로 정렬합니다.
2. 계수 개산
정규 분포의 기대치와 관련된 계수를 계산합니다. 이 계수들은 정규 분포를 따르는 데이터에서 기대할 수 있는 값들입니다.
3. 검정 통계량 계산
정렬된 데이터와 계산된 계수를 사용하여 검정 통계량 W를 계산합니다. 이 값은 데이터가 정규 분포를 얼마나 잘 따르는지를 나타냅니다.
식은 다음과 같습니다.
4. p-value 계산
검정 통계량 W에 대응하는 p-value를 계산합니다. 이 p-value는 데이터가 정규 분포를 따를 확률을 나타냅니다.
식은 다음과 같습니다.
해석
p-value > 0.05
귀무가설을 기각하지 않습니다. 이는 데이터가 정규 분포를 따른다는 충분한 증거가 없음을 의미합니다.
p-value ≤ 0.05
귀무가설을 기각합니다. 이는 데이터가 정규 분포를 따르지 않는다는 충분한 증거가 있음을 의미합니다.
Shapiro-Wilk Test(샤피로-윌크 검정)의 장점
1. 소규모 데이터에 유용
다른 정규성 검정보다 작은 표본 크기에서도 유효합니다.
2. 강력한 성능
데이터가 정규 분포를 따르는지 여부를 정확하게 평가합니다.
Shapiro-Wilk Test(샤피로-윌크 검정)의 단점
1. 큰 데이터 세트에서 p-value가 작게 나올 수 있음
큰 데이터 세트에서는 정규성을 만족해도 귀무가설을 기각할 수 있습니다.
2. 극단치에 민감
데이터에 극단치가 있으면 결과에 영향을 줄 수 있습니다.
코드 예시
#scipy.stats 모듈에서 shapiro 함수를 불러옵니다.
import scipy.stats as stats
#샘플 데이터 리스트 data를 정의합니다.
data = [4.8, 5.1, 5.6, 5.9, 6.1, 6.5, 6.8, 7.1, 7.5]
#shapiro 함수를 사용하여 Shapiro-Wilk 검정을 수행합니다. 결과는 검정 통계량 stat과 p-value p로 반환됩니다.
stat, p = stats.shapiro(data)
#p-value를 기준으로 데이터가 정규 분포를 따르는지 여부를 출력합니다.
print('통계량=%.3f, p-value=%.3f' % (stat, p))
if p > 0.05:
print('샘플이 정규 분포를 따릅니다 (귀무가설 기각 안함)')
else:
print('샘플이 정규 분포를 따르지 않습니다 (귀무가설 기각)')
'IT > 통계_용어' 카테고리의 다른 글
[통계][용어] Kolmogorov-Smirnov Test(KS 검정) (0) | 2024.07.20 |
---|
댓글