반응형

[R] 정규성 검정 (4) : 정량적 검정 (Lilliefors test) - lillie.test()

정규성 검정을 하는 방법은 지금까지 다룬 세 가지가 많이 쓰인다.

 

정규성 검정 방법

1) QQ plot : 2022.08.11 - [기술 통계/R] - [R] 정규성 검정 (1) : QQplot - qqnorm()

2) 히스토그램: 2022.08.11 - [기술 통계/R] - [R] 정규성 검정 (2) : 히스토그램 - hist(), dnorm()

3) 통계적 검정: 2022.08.11 - [기술 통계/R] - [R] 정규성 검정 (3) : 정량적 검정 (Shapiro-Wilk, Kolmogorov-Smirnov) - shapiro.test(), ks.test()

 

세 번째 방법인 통계적 검정에서 Kolmogorov-Smirnov test는 그대로 사용하지 않고 p-value만 교정한 Lilliefors test를 더 많이 사용한다. SPSS에서도 Lilliefors 교정된 Kolmogorov-Smirnov test 결과를 보여주는 것을 다음 링크에서 확인할 수 있다. 2022.08.11 - [기술 통계/SPSS] - [SPSS] 정규성 검정

 

그래서 이번에는 R에서 Lilliefors test를 하는 방법을 다뤄보고자 한다.

 

코드를 보여드리기에 앞서 워킹 디렉토리부터 지정하겠다.

워킹 디렉토리에 관한 설명은 다음 링크된 포스트에서 볼 수 있다.

2022.08.05 - [통계 프로그램 사용 방법/R] - [R] 작업 디렉토리 (Working Directory) 지정 - getwd(), setwd()

setwd("C:/Users/user/Documents/Tistory_blog")

 

*실습용 데이터는 아래 링크를 클릭하면 다운로드할 수 있습니다.

2022.08.04 - [공지사항 및 소개] - 분석용 데이터 (update 22.08.10)

 

분석용 데이터 (update 22.08.11)

2022년 08월 11일 버전입니다. 변수는 계속하여 추가될 예정입니다. 다음 카테고리에 있는 글에서 이용된 데이터입니다. - 기술 통계 - 통계 프로그램 사용 방법

medistat.tistory.com

 

데이터를 불러와 a에 객체로 저장하겠다.

데이터 불러오는 방법은 다음 링크에서 볼 수 있다.

2022.08.05 - [통계 프로그램 사용 방법/R] - [R] 데이터 불러오기 : EXCEL - read_excel(), read.xlsx()

2022.08.08 - [통계 프로그램 사용 방법/R] - [R] 데이터 불러오기 : CSV - read_csv(), read.csv(), fread()

2022.08.10 - [통계 프로그램 사용 방법/R] - [R] 데이터 불러오기 : SAS file (.sas7bdat) - read.sas7bdat(), read_sas()

 

install.packages("readr")
library("readr")
a<-read_csv("Data.csv")

 

Lilliefors test를 위해서는 "nortest" 패키지의 "lillie.test()"함수를 사용한다. 따라서 설치한 뒤 데이터의 변수 ALT로 lilliefors test를 시행하는 코드는 다음과 같다.

 

코드

install.packages("nortest")
library("nortest")
lillie.test(a$ALT)

 

결과

	Lilliefors (Kolmogorov-Smirnov) normality test

data:  a$ALT
D = 0.015397, p-value = 0.8184

Kolmogorov-Smirnov test결과와 D statistics 값은 0.015397로 같은데, p-value만 다르다는 것을 알 수 있다. (Kolmogorov-Smirnov test결과는 다음 링크에서 확인할 수 있다.2022.08.11 - [기술 통계/R] - [R] 정규성 검정 (3) : 정량적 검정 (Shapiro-Wilk, Kolmogorov-Smirnov) - shapiro.test(), ks.test())

 

 

해석방법

초급자: p-value>0.05이므로 정규성을 따른다.

 

중급자:

 

귀무 가설과 대립 가설은 다음과 같다.

-귀무 가설: ALT는 정규성을 따른다.

-대립 가설: ALT는 정규성을 따르지 않는다.

 

이때 제 1종 오류는 다음과 같다.

제 1종 오류

=귀무 가설이 참인데도 기각하고 대립 가설을 택함

=ALT는 정규성을 따르는데도 따르지 않는다고 결론 내림

 

p-value는 제 1종 오류를 범할 확률을 의미하므로 다음과 같이 결론 내릴 수 있다.

결론: 정규성을 따르는 것이 진실인데, 따르지 않는다고 결론 내렸을 확률이 0.05보다 크다.

=정규성을 따르는 것이 진실인데, 따르지 않는다고 결론 내린 것은 잘못일 수 있다.

=정규성을 따르지 않는다고는 할 수 없다.

 

고급자:

-본 데이터의 n 수는 1,000명으로 2,000명 미만이므로 Shapiro-Wilk test의 결과를 인용해야 한다. 따라서 본 결과는 신뢰하지 않는다.

-또한, QQplot과 히스토그램의 결과도 고려하여 정규성 여부를 판단해야 한다.

 

R 정규성 검정 (정량적 검정 - Lilliefors test) 정복 완료!

 

작성일: 2022.08.12.

최종 수정일: 2022.08.12.

이용 프로그램: R 4.1.3, RStudio v1.4.1717

운영체제: Windows 10

반응형

+ Recent posts