[SAS] 정규성 검정 - PROC UNIVARIATE
많은 통계 분석에서 전제조건으로 데이터의 정규성(normality)을 요구하곤 한다. SAS로 정규성 검정을 하는 방법을 살펴보고자 한다.
라이브러리를 지정하고 데이터를 불러온다
라이브러리 지정 방법 :2022.08.05 - [통계 프로그램 사용 방법/SAS] - [SAS] 라이브러리 만들기 - LIBNAME
데이터 불러오는 방법: 2022.08.05 - [통계 프로그램 사용 방법/SAS] - [SAS] 데이터 불러오기 및 저장하기 - PROC IMPORT, PROC EXPORT
*라이브러리 지정하기;
LIBNAME hong "C:/Users/User/Documents/Tistory_blog";
*데이터 불러오기;
PROC IMPORT
DATAFILE="C:\Users\user\Documents\Tistory_blog\Data.xlsx"
DBMS=EXCEL
OUT=hong.df
REPLACE;
RUN;
코드
데이터 중 ALT라는 변수로 정규성을 검정하고자 할 때 코드는 다음과 같다.
PROC UNIVARIATE DATA=hong.df NORMAL PLOT;
VAR ALT;
HISTOGRAM ALT/ NORMAL (MU=EST SIGMA=EST);
RUN;
PROC UNIVARIATE : 변수에 대해 알아보는 코드를 작성하겠다.
DATA=hong.df : 데이터는 hong이라는 라이브러리 내에 있는 df를 사용하겠다.
NORMAL : 정규성 검정을 시행해라.
PLOT : 히스토그램과 QQ plot을 그려라
VAR ALT : 분석할 변수는 ALT다
HISTOGRAM ALT : ALT의 히스토그램도 그려라
/ NORMAL (MU=EST SIGMA=EST) : 히스토그램에 정규분포 곡선도 그리는데, 정규분포 곡선의 평균은 ALT 데이터로부터 계산한 평균이고, 표준편차도 ALT 데이터의 표준편차다.
1) Q-Q plot
결과
해석방법
데이터가 직선상에 있음: 정규성 따름
데이터가 직선에서 벗어나 있음: 정규성 따르지 않음
따라서, "대부분의 데이터들이 일직선 상에 있으므로 정규성을 따른다고 할 수 있다."
Q-Q plot 이론은 다음 링크에서 확인할 수 있다.
2022.08.12 - [통계 이론] - [이론] Q-Q Plot (Quantile-Quantile Plot)
2) 히스토그램
결과
해석 방법
히스토그램 막대가 정규분포 곡선 상에 있음: 정규성 따름
히스토그램 막대가 정규분포 곡선에서 벗어남: 정규성 따르지 않음
따라서, "대부분의 히스토그램 막대가 정규분포 곡선 상에 있으므로 정규성을 따른다고 할 수 있다."
3) 통계적 검정
결과
해석 방법
초급자: p-value>0.05이므로 정규성을 따른다.
중급자:
귀무 가설과 대립 가설은 다음과 같다.
-귀무 가설: ALT는 정규성을 따른다.
-대립 가설: ALT는 정규성을 따르지 않는다.
이때 제 1종 오류는 다음과 같다.
제 1종 오류
=귀무 가설이 참인데도 기각하고 대립 가설을 택함
=ALT는 정규성을 따르는데도 따르지 않는다고 결론 내림
p-value는 제 1종 오류를 범할 확률을 의미하므로 다음과 같이 결론 내릴 수 있다.
결론: 정규성을 따르는 것이 진실인데, 따르지 않는다고 결론 내렸을 확률이 0.05보다 크다.
=정규성을 따르는 것이 진실인데, 따르지 않는다고 결론 내린 것은 잘못일 수 있다.
=정규성을 따르지 않는다고는 할 수 없다.
고급자:
-본 데이터의 n 수는 1,000명으로 2,000명 미만이므로 Shapiro-Wilk test의 결과를 인용한다. (SAS 기준, 2,000명까지는 Shapiro-Wilk test을 계산해주고, Kolmogorov-Smirnov test는 2,000명 이상이 필요하다.)
-또한, QQplot과 히스토그램의 결과도 고려하여 정규성 여부를 판단해야 한다.
SAS 정규성 검정 정복 완료!
작성일: 2022.08.12.
최종 수정일: 2022.08.13.
이용 프로그램: SAS v9.4
운영체제: Windows 10
'기술 통계 > SAS' 카테고리의 다른 글
[SAS] 기술 통계 (평균, 표준편차, 표준오차, 최댓값, 최솟값, 중위수, 분위수 등) - PROC UNIVARIATE, PROC MEANS (0) | 2022.09.23 |
---|---|
[SAS] 도수분포표 (Frequency table), 분할표 (Contingency table) 만들기 - PROC FREQ (0) | 2022.08.18 |