반응형

[SAS] 기술 통계 (평균, 표준편차, 표준오차, 최댓값, 최솟값, 중위수, 분위수 등) - PROC UNIVARIATE, PROC MEANS

 

 1,000명으로 어떤 연구를 했다고 하자. 그들의 키, 몸무게 등 지표들은 서로 다를 것이다. 논문의 저자가 이 모든 것을 독자들에게 보여주고자 한다면 행이 1,000인 표를 제시해야 할 것이다. 그렇게 큰 표를 실어줄 저널이 없기도 하거니와, 독자들이 보기에도 한눈에 들어오지 않는다. 그 대신 키의 '평균', 몸무게의 '평균'을 제시하면 한눈에 들어오니 보기가 좋다. 연속 변수는 평균, 표준편차 등으로 요약을 하여 보여주고, 범주형 자료 (흡연 여부, 음주 여부 등)는 도수분포표 혹은 분할표로 제시하게 된다. 분할표를 작성하는 방법은 다음 링크에서 확인할 수 있다. 2022.08.18 - [기술 통계/SAS] - [SAS] 도수분포표 (Frequency table), 분할표 (Contingency table) 만들기 - PROC FREQ

 

 

어떤 지표로 요약해줄 것인가?

1) 정규성을 따를 때: 평균 및 표준편차

 어떤 변수가 정규 분포를 따른다고 할 수 있다면, 평균과 표준편차만 알면 된다. 단 두 개의 지표만 있으면 전체 분포를 알아낼 수 있기 때문이다. (정규성을 따르는지는 정규성 검정으로 확인할 수 있으며 정규성 검정을 하는 방법은 다음 링크에서 확인할 수 있다.) 2022.08.12 - [기술 통계/SAS] - [SAS] 정규성 검정 - PROC UNIVARIATE

 

2) 정규성을 따르지 않을 때: 중위수, 최댓값, 최솟값, 분위수, 사분위 범위 등

 정규성을 따르지 않는다면 평균과 표준편차를 안다고 해도 전체 분포를 알아낼 수는 없다. 따라서 분포에 대한 직접적인 정보를 주는데, 예를 들어 '하위 25%에 위치하는 사람의 ALT값은 얼마인가?' 등을 제시하는 것이다. 그런 지표로는 중위수, 최댓값, 최솟값, 분 위수, 사분위 범위 등이 있다.

 

이번 포스팅에서는 이 모든 지표들 (평균, 표준편차, 표준오차, 중위수, 최댓값, 최솟값, 분위수, 사분위 범위 등)을 구하는 법에 대해 소개할 것이다.

 

*실습용 데이터는 아래 링크를 클릭하면 다운로드할 수 있습니다.

2022.08.04 - [공지사항 및 소개] - 분석용 데이터 (update 22.08.29)

 

분석용 데이터 (update 22.08.29)

2022년 08월 29일 버전입니다. 변수는 계속하여 추가될 예정입니다. 다음 카테고리에 있는 글에서 이용된 데이터입니다. - 기술 통계 - 통계 프로그램 사용 방법 1) 엑셀 파일 2) CSV 파일 3) 코드북

medistat.tistory.com

 

시작하기 위해 라이브러리를 만들고, 파일을 불러온다.

라이브러리 만드는 방법: 2022.08.05 - [통계 프로그램 사용 방법/SAS] - [SAS] 라이브러리 만들기 - LIBNAME

파일 불러오는 방법: 2022.08.05 - [통계 프로그램 사용 방법/SAS] - [SAS] 데이터 불러오기 및 저장하기 - PROC IMPORT, PROC EXPORT

 

*라이브러리 지정하기;
LIBNAME hong "C:/Users/User/Documents/Tistory_blog";

*파일 불러오기;
PROC IMPORT
DATAFILE="C:\Users\user\Documents\Tistory_blog\Data.xlsx"
DBMS=EXCEL
OUT=hong.df
REPLACE;
RUN;


초보자용 (PROC UNIVARIATE)

제목에서도 알 수 있듯이 SAS에서 기술 통계량을 확인하는 방법은 대표적으로 PROC UNIVARIATE와 PROC MEANS가 있다. 둘 다 유용하지만 별다른 설정이 필요 없는 PROC UNIVARIATE가 초보자에게는 권장된다. 

 

 

코드

PROC UNIVARIATE DATA=hong.df ;
VAR ALT ;
RUN;

PROC UNIVARIATE DATA=hong.df : 기술 통계량을 산출하는 코드를 시작할 것이고, 데이터는 hong 라이브러리에 있는 df를 쓰겠다.
VAR ALT : 변수 "ALT"에 대한 기술 통계량을 보여달라.

결과

 

일반적으로 원하는 대부분의 통계량을 확인할 수 있다.

N(대상자수) 1000명

평균: 35.1159383

표준 편차: 5.00643005

분산: 25.0643419

표준 오차: 0.15831722

사분위수 범위(IQR, InterQuartile Range): 6.83472

 - 이 값은 Q3 (75 백분위수)에서 Q1 (25 백분위수)를 뺀 값과 같다.

최댓값: 49.0388

Q3 (75 백분위수): 38.5897

중위수 (50 백분위수): 35.1395

Q1 (25 백분위수): 31.7550

최솟값: 19.6178

 

사분위수는 SAS, SPSS, R의 결과가 서로 다를 수 있다. 왜냐하면 각 프로그램에서 사분위수를 구하는 방법이 다를 수 있기 때문이다. 각 프로그램에는 사분위수를 구하는 여러가지 방법이 내장되어 있으며, 골라서 사용할 수도 있다.

R의 사분위수 확인하기: 2022.09.27 - [기술 통계/R] - [R] 기술 통계 (평균, 표준편차, 표준오차, 최댓값, 최솟값, 중위수, 분위수 등)

SPSS의 사분위수 확인하기: 2022.09.29 - [기술 통계/SPSS] - [SPSS] 기술 통계 (평균, 표준편차, 표준오차, 최댓값, 최솟값, 중위수, 분위수 등)

 

코드

만약, 음주 여부에 따라 기술 통계량을 보고 싶다면 다음과 같이 "CLASS"구문을 추가하면 된다.

PROC UNIVARIATE DATA=hong.df ;
CLASS ALCOHOL;
VAR ALT ;

PROC UNIVARIATE DATA=hong.df : 기술 통계량을 산출하는 코드를 시작할 것이고, 데이터는 hong 라이브러리에 있는 df를 쓰겠다.

CLASS ALCOHOL : 음주 여부에 따라서 각각 결과를 산출하라
VAR ALT : 변수 "ALT"에 대한 기술 통계량을 보여달라.

 

결과

 

경력자용 (PROC MEANS)

 PROC UNIVARIATE은 정말 훌륭한 코드이지만 단점은 출력되는 결괏값이 너무 많다는 것이다. 그중에 필요한 것만 골라서 보고 싶다면 PROC MEANS가 더욱 적절하다. 물론 SAS에 익숙하지 않다면 코드가 복잡하게 느껴질 수도 있다.

 

기본 코드

PROC MEANS DATA=hong.df ;
VAR ALT ;
RUN;

PROC MEANS DATA=hong.df : 기술 통계량을 산출하는 코드를 시작할 것이고, 데이터는 hong 라이브러리에 있는 df를 쓰겠다.
VAR ALT : 변수 "ALT"에 대한 기술 통계량을 보여달라.

 

결과

보고 싶은 통계량을 지정해놓지 않으면 표본의 수, 평균, 표준편차, 최솟값, 최댓값을 보여준다.

 

코드

보고 싶은 통계량이 있다면 데이터 지정 후 모두 다 적어주면 된다.

예를 들어 표본의 수는 N, 평균은 MEAN, 표준편차는 STD인데 이 세 가지를 넣은 코드는 다음과 같다.

PROC MEANS DATA=hong.df N MEAN STD;
VAR ALT ;
RUN;

PROC MEANS DATA=hong.df N MEAN STD : 기술 통계량을 산출하는 코드를 시작할 것이고, 데이터는 hong 라이브러리에 있는 df를 쓰겠다. 통계량은 표본의 수, 평균, 표준편차만 보여달라.
VAR ALT : 변수 "ALT"에 대한 기술 통계량을 보여달라.

결과

 

비교적 자주 쓰는 통계량의 코드는 다음과 같다.

통계량 코드 통계량 코드
표본 수 N 평균의 신뢰구간 CLM
결측 수 NMISS 25백분위수 (1사분위수) P25 (Q1)
평균 MEAN 75백분위수 (3사분위수) P75 (Q3)
표준편차 STD 사분위 범위  QRANGE
표준오차 STDERR 1백분위수 P1
최솟값 MIN 5백분위수 P5
최댓값 MAX n0백분위수 Pn0 (i.e. P10, P20, P30, ...)
중위수 MEDIAN 95백분위수 P95
최빈값 MODE 99백분위수 P99

*CLM은 양측(two-sided) 신뢰구간을 구해준다. 만약 단측 (one-sided)신뢰구간을 구하고자 한다면 신뢰구간의 상한은 UCLM을, 하한은 LCLM을 사용하면 된다.

코드

만약, 음주 여부에 따라 기술 통계량을 보고 싶다면 다음과 같이 "CLASS"구문을 추가하면 된다.

PROC MEANS DATA=hong.df N MEAN STD;
CLASS ALCOHOL;
VAR ALT ;
RUN;

PROC MEANS DATA=hong.df N MEAN STD : 기술 통계량을 산출하는 코드를 시작할 것이고, 데이터는 hong 라이브러리에 있는 df를 쓰겠다. 통계량은 표본의 수, 평균, 표준편차만 보여달라.

CLASS ALCOHOL : 음주 여부에 따라서 각각 결과를 산출하라
VAR ALT : 변수 "ALT"에 대한 기술 통계량을 보여달라.

 

결과

 

코드

만약, 음주 여부에 따라 ALT와 수축기 혈압을 동시에 보고 싶다면 변수 자리에 수축기 혈압 변수를 같이 쓰면 된다.

PROC MEANS DATA=hong.df N MEAN STD;
CLASS ALCOHOL;
VAR ALT SBP;
RUN;

PROC MEANS DATA=hong.df N MEAN STD : 기술 통계량을 산출하는 코드를 시작할 것이고, 데이터는 hong 라이브러리에 있는 df를 쓰겠다. 통계량은 표본의 수, 평균, 표준편차만 보여달라.

CLASS ALCOHOL : 음주 여부에 따라서 각각 결과를 산출하라
VAR ALT SBP : 변수 "ALT"와 "SBP"에 대한 기술 통계량을 보여달라.

 

결과

코드 정리

*라이브러리 지정하기;
LIBNAME hong "C:/Users/User/Documents/Tistory_blog";

*파일 불러오기;
PROC IMPORT
DATAFILE="C:\Users\user\Documents\Tistory_blog\Data.xlsx"
DBMS=EXCEL
OUT=hong.df
REPLACE;
RUN;

*초보자용;
PROC UNIVARIATE DATA=hong.df ;
VAR ALT ;
RUN;

*(초보자용) 음주 여부에 따른 기술 통계량;
PROC UNIVARIATE DATA=hong.df ;
CLASS ALCOHOL;
VAR ALT ;

*경력자용;
PROC MEANS DATA=hong.df ;
VAR ALT ;
RUN;

*(경력자용) 음주 여부에 따른 기술 통계량;
PROC MEANS DATA=hong.df N MEAN STD;
CLASS ALCOHOL;
VAR ALT ;
RUN;

 

SAS 기술 통계량 정복 완료!

 

작성일: 2022.09.23.

최종 수정일: 2022.09.29.

이용 프로그램: SAS v9.4

운영체제: Windows 10

반응형
반응형

[SAS] 도수분포표 (Frequency table), 분할표 (Contingency table) 만들기 - PROC FREQ

 수천 명의 정보를 포함한 데이터를 한눈에 요약하고 싶을 때가 많다. 나이, 혈압과 같은 연속형 변수는 평균으로 요약하곤 하는데, 성별이나 음주 여부는 평균을 구할 수 없으니 빈도를 제시하곤 한다. 이를 표로 제시하면 도수분포표 (Frequency table)가 된다. 이를 넘어서 남성 중 음주자가 몇 명인지, 여성중 비음주자가 몇 명인지 알고 싶을 때가 있는데, 이때 사용하는 것이 분할표 (Contingency table)이다. 즉 본 글의 목적은 다음 두 개의 표 내용을 채우는 것이다.

 

<도수분포표>

  빈도 백분율 누적빈도 누적백분율
여성        
남성        

 

<분할표>

  비음주자 음주자 합계
여성      
남성      
합계      

 

*실습용 데이터는 아래 링크를 클릭하면 다운로드할 수 있습니다.

2022.08.04 - [공지사항 및 소개] - 분석용 데이터 (update 22.08.18)

 

분석용 데이터 (update 22.08.18)

2022년 08월 18일 버전입니다. 변수는 계속하여 추가될 예정입니다. 다음 카테고리에 있는 글에서 이용된 데이터입니다. - 기술 통계 - 통계 프로그램 사용 방법 1) 엑셀 파일 2) CSV 파일 3) 코드북

medistat.tistory.com

 

시작하기 위해 라이브러리를 만들고, 파일을 불러온다.

라이브러리 만드는 방법: 2022.08.05 - [통계 프로그램 사용 방법/SAS] - [SAS] 라이브러리 만들기 - LIBNAME

파일 불러오는 방법: 2022.08.05 - [통계 프로그램 사용 방법/SAS] - [SAS] 데이터 불러오기 및 저장하기 - PROC IMPORT, PROC EXPORT

 

*라이브러리 지정하기;
LIBNAME hong "C:/Users/User/Documents/Tistory_blog";

*파일 불러오기;
PROC IMPORT
DATAFILE="C:\Users\user\Documents\Tistory_blog\Data.xlsx"
DBMS=EXCEL
OUT=hong.df
REPLACE;
RUN;

 

코드

성별과 음주 여부의 분할표를 만드는 코드는 다음과 같다.

-변수

 1) SEX: 성별

  -0: 여성

  -1: 남성

 2) ALCOHOL: 음주 여부

  -0: 비음주자

  -1: 음주자

 

 

도수분포표 

PROC FREQ DATA=hong.df; 
TABLE SEX;
RUN;

PROC FREQ DATA=hong.df; : 도수분포표를 구하는 코드를 시작하며, 데이터는 hong 라이브러리 내의 df 파일을 사용한다.
TABLE SEX; : SEX의 도수분포표를 구하라

결과

 위 결과에 숫자가 너무 많아 지저분해 보이고, 한눈에 잘 들어오지 않을 수 있다. 그런 경우 다음과 같은 옵션을 통해 표시되는 숫자들을 제어할 수 있다.

 NOPERCENT: 백분율 표시 안 함

 NOCUM: 누적 빈도 및 누적 백분율 표시 안 함

PROC FREQ DATA=hong.df; 
TABLE SEX/ NOCUM ;
RUN;

결과

분할표 

PROC FREQ DATA=hong.df; 
TABLE SEX*ALCOHOL;
RUN;

PROC FREQ DATA=hong.df; : 분할표를 구하는 코드를 시작하며, 데이터는 hong 라이브러리 내의 df 파일을 사용한다.
TABLE SEX*ALCOHOL; : SEX와 ALCOHOL 변수로 분할표를 만들어라.

 - *표시 앞에 오는 변수가 세로축에, 뒤에 오는 변수가 가로축에 놓이게 된다.

결과

각 셀 안의 내용물은 다음과 같다

(1) 빈도 - 각 셀에 해당하는 인구의 수

  비음주자 음주자 합계
여성 236
23.60
48.96
57.56
246
24.60
51.04
41.69
482
48.20
남성 174
17.40
33.59
42.44
344
34.40
66.41
58.31
518
51.80
합계 410
41.00
590
59.00
1000
100.00

 

(2) 백분율 - 빈도를 전체 인구 (1,000)으로 나눠 %로 나타낸 값

세로 혹은 가로로 더하면 합계의 백분율과 일치하며 백분율의 총합은 100과 같다.

  비음주자 음주자 합계
여성 236
23.60
48.96
57.56
246
24.60
51.04
41.69
482
48.20
남성 174
17.40
33.59
42.44
344
34.40
66.41
58.31
518
51.80
합계 410
41.00
590
59.00
1000
100.00

 

(3) 행 백분율 - 각 행에서 빈도가 차지하는 분율.

 - 여성에서 비음주자가 차지하는 분율은 48.96%, 음주자가 차지하는 분율은 51.04%다.

 - 남성에서 비음주자가 차지하는 분율은 33.59%, 음주자가 차지하는 분율은 66.41%다.

따라서 행별로 더하면 (=같은 색깔끼리 더하면) 100%가 나오게 된다.

  비음주자 음주자 합계
여성 236
23.60
48.96
57.56
246
24.60
51.04
41.69
482
48.20
남성 174
17.40
33.59
42.44
344
34.40
66.41
58.31
518
51.80
합계 410
41.00
590
59.00
1000
100.00

 

(4) 칼럼 백분율 - 각 열(칼럼)에서 빈도가 차지하는 분율.

 - 비음주자에서 여성이 차지하는 분율은 57.56%, 남성이 차지하는 분율은 42.44%다.

 - 음주자에서 여성이 차지하는 분율은 41.69%, 남성이 차지하는 분율은 58.31%다.

따라서 열(칼럼) 별로 더하면 (=같은 색깔끼리 더하면) 100%가 나오게 된다.

  비음주자 음주자 합계
여성 236
23.60
48.96
57.56
246
24.60
51.04
41.69
482
48.20
남성 174
17.40
33.59
42.44
344
34.40
66.41
58.31
518
51.80
합계 410
41.00
590
59.00
1000
100.00

 

 

 

 위 결과에 숫자가 너무 많아 지저분해 보이고, 한눈에 잘 들어오지 않을 수 있다. 그런 경우 다음과 같은 옵션을 통해 표시되는 숫자들을 제어할 수 있다.

 NOFREQ: 빈도 표시 안 함 

 NOPERCENT: 백분율 표시 안 함

 NOROW: 행 백분율 표시 안 함

 NOCOL: 열(칼럼) 백분율 표시 안 함

 

PROC FREQ DATA=hong.df; 
TABLE SEX*ALCOHOL / NOPERCENT NOROW NOCOL;
RUN;

결과

PROC FREQ DATA=hong.df; 
TABLE SEX*ALCOHOL / NOPERCENT NOCOL;
RUN;

결과

PROC FREQ DATA=hong.df; 
TABLE SEX*ALCOHOL / NOFREQ NOPERCENT NOCOL;
RUN;

결과

 

세 개 이상의 변수를 사용하는 분할표

세 개 이상의 변수를 사용하여 분할표를 작성하고 싶을 때가 있다. 다음 두 경우를 생각해보도록 하겠다.

1) 두 가지의 분할표를 작성하는 경우

:성별-음주의 분할표와 성별-고혈압의 분할표를 각각 그리고자 할 때

*방법 1: TABLE 구문 안에 원하는 변수의 조합을 모두 쓴다;
PROC FREQ DATA=hong.df; 
TABLE SEX*ALCOHOL SEX*HTN;
RUN;

*방법 2: 공통변수로 묶은 뒤 괄호 안에 나머지 변수를 띄어쓰기로 구분하여 작성한다;
PROC FREQ DATA=hong.df; 
TABLE SEX*(ALCOHOL HTN);
RUN;

두 개의 코드는 완벽히 똑같은 결과를 제시해준다. 

결과

2) 조건에 따라 분할표를 작성하는 경우

:고혈압 여부에 따른 성별-음주의 분할표를 그리고자 할 때

PROC FREQ DATA=hong.df; 
TABLE HTN*SEX*ALCOHOL;
RUN;

문제 상황처럼 고혈압 여부(HTN)에 따른 성별(SEX)과 음주(ALCOHOL)의 분할표를 그리고자 한다면, 고혈압 여부(HTN)를 TABLE구문 맨 앞에 추가로 붙여준다. 시행하면 다음과 같은 결과를 얻는다.

결과

고혈압이 없는 (HTN=0) 사람의 성별-음주 분할표가 위에 나오고, 고혈압이 있는 (HTN=1) 사람의 성별-음주 분할표가 따라 나오게 된다. 

 - SAS를 조금 아는 사람이라면 "WHERE 구문을 쓰면 되는데 왜 이렇게 복잡하게 하냐?"라고 이야기할 수도 있지만, 국민건강 영양조사(NHANES, KNHANES) 자료를 쓸 때엔 WHERE 구문이나 BY 구문의 사용이 엄격하게 금지되므로 이 방법이 필수적이다. 물론 이땐 PROC FREQ이 아니라 PROC SURVEYFREQ을 사용하게 된다.

 - SAS에는 인구를 나누는 변수를 맨 앞에 쓰지만, R에서는 맨 뒤에 쓴다는 것을 유의해야 한다.

 

SAS 도수분포표, 분할표 정복 완료!

 

작성일: 2022.08.18.

최종 수정일: 2022.08.31.

이용 프로그램: SAS v9.4

운영체제: Windows 10

반응형
반응형

[SAS] 정규성 검정 - PROC UNIVARIATE

 

 

 많은 통계 분석에서 전제조건으로 데이터의 정규성(normality)을 요구하곤 한다. SAS로 정규성 검정을 하는 방법을 살펴보고자 한다.

 

라이브러리를 지정하고 데이터를 불러온다

라이브러리 지정 방법 :2022.08.05 - [통계 프로그램 사용 방법/SAS] - [SAS] 라이브러리 만들기 - LIBNAME

데이터 불러오는 방법: 2022.08.05 - [통계 프로그램 사용 방법/SAS] - [SAS] 데이터 불러오기 및 저장하기 - PROC IMPORT, PROC EXPORT

 

*라이브러리 지정하기;
LIBNAME hong "C:/Users/User/Documents/Tistory_blog";

*데이터 불러오기;
PROC IMPORT
DATAFILE="C:\Users\user\Documents\Tistory_blog\Data.xlsx"
DBMS=EXCEL
OUT=hong.df
REPLACE;
RUN;

 

코드

데이터 중 ALT라는 변수로 정규성을 검정하고자 할 때 코드는 다음과 같다.

PROC UNIVARIATE DATA=hong.df NORMAL PLOT;
VAR ALT;
HISTOGRAM ALT/ NORMAL (MU=EST SIGMA=EST);
RUN;

PROC UNIVARIATE : 변수에 대해 알아보는 코드를 작성하겠다.

DATA=hong.df : 데이터는 hong이라는 라이브러리 내에 있는 df를 사용하겠다.

NORMAL : 정규성 검정을 시행해라.

PLOT : 히스토그램과 QQ plot을 그려라
VAR ALT : 분석할 변수는 ALT다
HISTOGRAM ALT : ALT의 히스토그램도 그려라

/ NORMAL (MU=EST SIGMA=EST) : 히스토그램에 정규분포 곡선도 그리는데, 정규분포 곡선의 평균은 ALT 데이터로부터 계산한 평균이고, 표준편차도 ALT 데이터의 표준편차다.

 

1) Q-Q plot

결과

해석방법

데이터가 직선상에 있음: 정규성 따름

데이터가 직선에서 벗어나 있음: 정규성 따르지 않음

 

따라서, "대부분의 데이터들이 일직선 상에 있으므로 정규성을 따른다고 할 수 있다."

 

Q-Q plot 이론은 다음 링크에서 확인할 수 있다.

2022.08.12 - [통계 이론] - [이론] Q-Q Plot (Quantile-Quantile Plot)

 

[이론] Q-Q Plot (Quantile-Quantile Plot)

[이론] Q-Q Plot (Quantile-Quantile Plot) 정규성을 검정할 때 Q-Q Plot을 쓰곤 한다. 그런데 이런 궁금증이 들 수 있다. 왜 Q-Q Plot이 직선에 가까운 것이 정규성을 따른다는 뜻인가? 이에 대해 조목조목..

medistat.tistory.com

2) 히스토그램

결과

해석 방법

히스토그램 막대가 정규분포 곡선 상에 있음: 정규성 따름

히스토그램 막대가 정규분포 곡선에서 벗어남: 정규성 따르지 않음

 

따라서, "대부분의 히스토그램 막대가 정규분포 곡선 상에 있으므로 정규성을 따른다고 할 수 있다."

 

3) 통계적 검정

결과

해석 방법

초급자: p-value>0.05이므로 정규성을 따른다.

 

중급자:

 

귀무 가설과 대립 가설은 다음과 같다.

-귀무 가설: ALT는 정규성을 따른다.

-대립 가설: ALT는 정규성을 따르지 않는다.

 

이때 제 1종 오류는 다음과 같다.

제 1종 오류

=귀무 가설이 참인데도 기각하고 대립 가설을 택함

=ALT는 정규성을 따르는데도 따르지 않는다고 결론 내림

 

p-value는 제 1종 오류를 범할 확률을 의미하므로 다음과 같이 결론 내릴 수 있다.

결론: 정규성을 따르는 것이 진실인데, 따르지 않는다고 결론 내렸을 확률이 0.05보다 크다.

=정규성을 따르는 것이 진실인데, 따르지 않는다고 결론 내린 것은 잘못일 수 있다.

=정규성을 따르지 않는다고는 할 수 없다.

 

고급자:

-본 데이터의 n 수는 1,000명으로 2,000명 미만이므로 Shapiro-Wilk test의 결과를 인용한다. (SAS 기준, 2,000명까지는 Shapiro-Wilk test을 계산해주고, Kolmogorov-Smirnov test는 2,000명 이상이 필요하다.)

-또한, QQplot과 히스토그램의 결과도 고려하여 정규성 여부를 판단해야 한다.

 

 

 

SAS 정규성 검정 정복 완료!

 

작성일: 2022.08.12.

최종 수정일: 2022.08.13.

이용 프로그램: SAS v9.4

운영체제: Windows 10

반응형

+ Recent posts