반응형

[SPSS] 도수분포표 (Frequency table), 분할표 (Contingency table) 만들기

 

 수천 명의 정보를 포함한 데이터를 한눈에 요약하고 싶을 때가 많다. 나이, 혈압과 같은 연속형 변수는 평균으로 요약하곤 하는데, 성별이나 음주 여부는 평균을 구할 수 없으니 빈도를 제시하곤 한다. 이를 표로 제시하면 도수분포표 (Frequency table)가 된다. 이를 넘어서 남성 중 음주자가 몇 명인지, 여성중 비음주자가 몇 명인지 알고 싶을 때가 있는데, 이때 사용하는 것이 분할표 (Contingency table)이다. 즉 본 글의 목적은 다음 두 개의 표 내용을 채우는 것이다.

 

<도수분포표>

  빈도 백분율 누적백분율
여성      
남성      

 

<분할표>

  비음주자 음주자 합계
여성      
남성      
합계      

 

 

*실습용 데이터는 아래 링크를 클릭하면 다운로드할 수 있습니다.

2022.08.04 - [공지사항 및 소개] - 분석용 데이터 (update 22.08.29)

 

분석용 데이터 (update 22.08.29)

2022년 08월 29일 버전입니다. 변수는 계속하여 추가될 예정입니다. 다음 카테고리에 있는 글에서 이용된 데이터입니다. - 기술 통계 - 통계 프로그램 사용 방법 1) 엑셀 파일 2) CSV 파일 3) 코드북

medistat.tistory.com

 

먼저 데이터를 불러온다. 데이터를 불러오는 방법은 다음 글을 확인하길 바란다.

2022.08.04 - [통계 프로그램 사용 방법/SPSS] - [SPSS] 데이터 불러오기 및 저장하기

 

도수분포표 작성하기

1) 분석(A) > 기술통계량(E) > 빈도분석(F) 

 

2) 분석하고자 하는 변수(SEX)를 오른쪽으로 옮기고 "확인" 누르기

 

결과

빈도: 각 카테고리에 속하는 사람의 수

퍼센트: 전체 인구 (결측값 포함)에서 각 카테고리에 속하는 사람이 차지하는 분율

 - 따라서 결측값이 있는 경우 퍼센트의 총합은 100이 안 될 수 있다.

유효 퍼센트: 결측치를 제외한 인구에서 각 카테고리에 속하는 사람이 차지하는 분율 

 - 따라서 결측치 유무에 관계없이 유효 퍼센트의 총합은 100이 된다.

누적 퍼센트: 유효 퍼센트를 누적으로 더한 것

 

본 데이터에는 결측치가 없으므로 퍼센트와 유효 퍼센트는 같은 값으로 나온다. 보통의 경우 결측치를 제외했을 때의 퍼센트를 구하니 "유효 퍼센트"를 사용하면 된다. 도수분포표를 채우면 다음과 같다.

 

  빈도 백분율 누적백분율
여성 482 48.2 48.2
남성 518 51.8 100.0

 

분할표 작성하기

1) 분석(A) > 기술통계량(E) > 교차분석(C) 

 

2) 행과 열에 원하는 변수를 넣어주기. 여기에서는 행에 SEX를, 열에 ALCOHOL을 넣었다. 그리고 셀(E)을 클릭한다.

 

3) 퍼센트 박스의 세 개의 체크 박스를 모두 선택한다. 계속 (C)를 누른다.

4) "확인"버튼을 누른다.

결과

 

각 내용은 다음과 같다. 

 

각 셀 안의 내용물은 다음과 같다

(1) 빈도 - 각 셀에 해당하는 인구의 수

  비음주자 음주자 합계
여성 236
49.0%
57.6%
23.6%
246
51.0%
41.7%
24.6%
482
100.0%
48.2%
48.2%
남성 174
33.6%
42.4%
17.4%
344
66.4%
58.3%
34.4%
518
100.0%
51.8%
51.8%
합계 410
41.0%
100.0%
41.0%
590
59.0%
100.0%
59.0%
1000
100.0%
100.0%
100.0%

 

 

(2) 행 백분율 - 각 행에서 빈도가 차지하는 분율.

 - 여성에서 비음주자가 차지하는 분율은 49.0%, 음주자가 차지하는 분율은 51.0%다.

 - 남성에서 비음주자가 차지하는 분율은 33.6%, 음주자가 차지하는 분율은 66.4%다.

따라서 행별로 더하면 (=같은 색깔끼리 더하면) 100%가 나오게 된다.

  비음주자 음주자 합계
여성 236
49.0%
57.6%
23.6%
246
51.0%
41.7%
24.6%
482
100.0%
48.2%
48.2%
남성 174
33.6%
42.4%
17.4%
344
66.4%
58.3%
34.4%
518
100.0%
51.8%
51.8%
합계 410
41.0%
100.0%
41.0%
590
59.0%
100.0%
59.0%
1000
100.0%
100.0%
100.0%

(3) 열 백분율 - 각 열(칼럼)에서 빈도가 차지하는 분율.

 - 비음주자에서 여성이 차지하는 분율은 57.6%, 남성이 차지하는 분율은 42.4%다.

 - 음주자에서 여성이 차지하는 분율은 41.7%, 남성이 차지하는 분율은 58.3%다.

따라서 열(칼럼) 별로 더하면 (=같은 색깔끼리 더하면) 100%가 나오게 된다.

  비음주자 음주자 합계
여성 236
49.0%
57.6%
23.6%
246
51.0%
41.7%
24.6%
482
100.0%
48.2%
48.2%
남성 174
33.6%
42.4%
17.4%
344
66.4%
58.3%
34.4%
518
100.0%
51.8%
51.8%
합계 410
41.0%
100.0%
41.0%
590
59.0%
100.0%
59.0%
1000
100.0%
100.0%
100.0%

 

(4) 백분율 - 빈도를 전체 인구 (1,000)으로 나눠 %로 나타낸 값

세로 혹은 가로로 더하면 합계의 백분율과 일치하며 백분율의 총합은 100과 같다.

  비음주자 음주자 합계
여성 236
49.0%
57.6%
23.6%
246
51.0%
41.7%
24.6%
482
100.0%
48.2%
48.2%
남성 174
33.6%
42.4%
17.4%
344
66.4%
58.3%
34.4%
518
100.0%
51.8%
51.8%
합계 410
41.0%
100.0%
41.0%
590
59.0%
100.0%
59.0%
1000
100.0%
100.0%
100.0%

 

 

세 개 이상의 변수를 사용하는 분할표

세 개 이상의 변수를 사용하여 분할표를 작성하고 싶을 때가 있다. 조건에 따라 분할표를 작성하는 경우가 해당하는데 예를 들어 고혈압 여부에 따른 성별-음주의 분할표를 그려보도록 하겠다.

 

1) 분석(A) > 기술통계량(E) > 교차분석(C) 

 

2) 행과 열에 원하는 변수를 넣어주기. 여기에서는 행에 SEX를, 열에 ALCOHOL을 넣었다. 조건 (고혈압 여부)에 해당하는 변수인 HTN을 레이어에 넣는다. 그리고 셀(E)을 클릭한다.

 

3) 퍼센트 박스의 세 개의 체크 박스를 모두 선택한다. 계속 (C)를 누른다.

4) "확인"버튼을 누른다.

결과

고혈압이 없는 (HTN=0) 사람의 성별-음주 분할표가 위에 나오고, 고혈압이 있는 (HTN=1) 사람의 성별-음주 분할표가 따라 나오게 된다. 

 

SPSS 도수분포표, 분할표 정복 완료!

 

작성일: 2022.09.06.

최종 수정일: 2022.09.06.

이용 프로그램: IBM SPSS v26

운영체제: Windows 10

반응형

+ Recent posts