반응형

[SPSS] 정규성 검정

 

많은 통계 분석에서 전제조건으로 데이터의 정규성(normality)을 요구하곤 한다. SPSS로 정규성 검정을 하는 방법을 살펴보고자 한다.

 

*실습용 데이터는 아래 링크를 클릭하면 다운로드할 수 있습니다.

2022.08.04 - [공지사항 및 소개] - 분석용 데이터 (update 22.08.29)

 

분석용 데이터 (update 22.08.29)

2022년 08월 29일 버전입니다. 변수는 계속하여 추가될 예정입니다. 다음 카테고리에 있는 글에서 이용된 데이터입니다. - 기술 통계 - 통계 프로그램 사용 방법 1) 엑셀 파일 2) CSV 파일 3) 코드북

medistat.tistory.com

 

먼저 데이터를 불러온다

(데이터 불러오는 방법은 다음 링크 참고:

2022.08.04 - [통계 프로그램 사용 방법/SPSS] - [SPSS] 데이터 불러오기 및 저장하기)

 

정규성 검정 방법

1) 분석 (A)>기술통계량 (E) > 데이터 탐색 (E)

 

2) 분석하고자 하는 변수를 "종속변수(D)" 쪽으로 이동

 

3) 도표(T)를 누르고, "히스토그램(H)", "검정과 함께 정규성도표(O)" 체크박스를 클릭. 다 되었으면 "계속(C)" 클릭

 

4) "확인" 을 눌러 결과 확인

 

1) Q-Q plot

R에서 그린 그림과 비교해보면 약간 다른데, x축과 y축이 바뀌어 있기 때문이다.

R로 그린 Q-Q plot은 다음 링크에서 확인할 수 있다: 2022.08.11 - [기술 통계/R] - [R] 정규성 검정 (1) : QQplot - qqnorm(), qqline() 

 

해석방법

데이터가 직선상에 있음: 정규성 따름

데이터가 직선에서 벗어나 있음: 정규성 따르지 않음

 

따라서, "대부분의 데이터들이 일직선 상에 있으므로 정규성을 따른다고 할 수 있다."

 

Q-Q plot 이론은 다음 링크에서 확인할 수 있다.

2022.08.12 - [통계 이론] - [이론] Q-Q Plot (Quantile-Quantile Plot)

 

[이론] Q-Q Plot (Quantile-Quantile Plot)

[이론] Q-Q Plot (Quantile-Quantile Plot) 정규성을 검정할 때 Q-Q Plot을 쓰곤 한다. 그런데 이런 궁금증이 들 수 있다. 왜 Q-Q Plot이 직선에 가까운 것이 정규성을 따른다는 뜻인가? 이에 대해 조목조목..

medistat.tistory.com

2) 정량적 검정 (Shapiro-Wilk, Kolmogorov-Smirnov test) 

해석방법

초급자: p-value>0.05이므로 정규성을 따른다.

 

중급자:

 

귀무 가설과 대립 가설은 다음과 같다.

-귀무 가설: ALT는 정규성을 따른다.

-대립 가설: ALT는 정규성을 따르지 않는다.

 

이때 제 1종 오류는 다음과 같다.

제 1종 오류

=귀무 가설이 참인데도 기각하고 대립 가설을 택함

=ALT는 정규성을 따르는데도 따르지 않는다고 결론 내림

 

p-value는 제 1종 오류를 범할 확률을 의미하므로 다음과 같이 결론내릴 수 있다.

결론: 정규성을 따르는 것이 진실인데, 따르지 않는다고 결론내렸을 확률이 0.05보다 크다.

=정규성을 따르는 것이 진실인데, 따르지 않는다고 결론내린 것은 잘못일 수 있다.

=정규성을 따르지 않는다고는 할 수 없다.

 

고급자:

-(비록 본 데이터는 n수가 충분하지만) n수가 굉장히 적다면 정규성 검정을 잘 통과하므로 결과를 맹신해서는 안 된다.

-본 데이터의 n수는 1,000명으로 2,000명 미만이므로 Shapiro-Wilk test의 결과를 인용한다. (SAS 기준, 2,000명까지는 Shapiro-Wilk test을 계산해주고, Kolmogorov-Smirnov test는 2,000명 이상이 필요하다.)

-또한, QQplot과 히스토그램의 결과도 고려하여 정규성 여부를 판단해야 한다.

 

R에서 시행한 Kolmogorov-Smirnov test 결과와 약간 다르다. R의 Kolmogorov-Smirnov test결과는 다음 링크에서 확인할 수 있다.2022.08.11 - [기술 통계/R] - [R] 정규성 검정 (3) : 정량적 검정 (Shapiro-Wilk, Kolmogorov-Smirnov) - shapiro.test(), ks.test()

 

다르게 나타나는 이유는 두 가지가 있다.

1) SPSS 결과의 p-value "0.200*" 이란 ">0.2"를 의미한다. 즉 적어도 0.2보다는 크다는 뜻을 의미하며, R에서의 결과인 "0.9717"과는 그렇게 배치되는 이야기가 아니다. 

2) SPSS는 Lilliefors가 수정한 방식의 유의확률을 계산해준다. 초창기에 만든 Kolmogorov-Smirnov test는 모종의 문제가 있어 Lilliefors가 p-value를 수정하게 되었다. SPSS는 이를 제시해주고 있다. R에서 Lilliefors가 수정한 Kolmogorov-Smirnov test를 하는 방법은 다음 링크에서 확인할 수 있다.

 

3) 히스토그램

히스토그램은 이렇게 그려주는데 정규분포 곡선이 그려져있지 않다. 이를 위해서는 다음의 단계를 거쳐 새로 그려야 한다.

 

1) 그래프(G)>레거시 대화 상자 (L)> 히스토그램 (I)

 

2) 분석하고자 하는 변수를 "변수(V):"쪽으로 옮기고, "정규곡선 표시(D)" 체크박스에 체크를 한다. 그리고 "확인"을 누른다.

결과

해석방법

히스토그램 막대가 정규분포 곡선 상에 있음: 정규성 따름

히스토그램 막대가 정규분포 곡선 에서 벗어남: 정규성 따르지 않음

 

따라서, "대부분의 히스토그램 막대가 정규분포 곡선 상에 있으므로 정규성을 따른다고 할 수 있다."

 

SPSS 정규성 검정 정복 완료!

 

작성일: 2022.08.11.

최종 수정일: 2022.11.29.

이용 프로그램: IBM SPSS v26

운영체제: Windows 10

반응형

+ Recent posts