[이론] 콕스 회귀 모델에서 생존 함수의 표현

2022. 11. 10. 12:49

[이론] 콕스 회귀 모델에서 생존 함수의 표현

콕스 회귀 모델에서 생존 함수는 다음과 같이 표현하곤 한다.

$$S(t,\mathbf{X}) = \left[ S_0 (t) \right] ^{e^{\sum_{i=1}^{p} \beta_i X_i}} $$

왜 이렇게 표현되는지를 이해해야 추후에 나오는 log-log plot 등을 이해할 수 있기에 여기에서 소개한다.

1. Notation

먼저 notation에 대해 소개하고자 한다.

1)$\mathbf{X}$

$\mathbf{X}$는 $X$들의 집합체이며, $X$는 모델을 설명하는 변수를 의미한다. 예를 들면, 특정 위험 요소에 노출 여부, 성별, 나이, 인종, 음주 여부, 흡연 여부 등이 있을 수 있다. 이 모든 것들을 적기에는 귀찮고 공간 낭비이므로 $\mathbf{X}$로 표현한다.

2)$S(t,\mathbf{X})$

$S(t,\mathbf{X})$는 특정 $\mathbf{X}$을 가진 사람의 시간 $t$에서의 생존 확률이다. 예를 들면, 남자, 53세, 백인, 음주자, 비흡연자의 12개월에서의 생존 확률인 것이다.

3) $S_0(t)$

$S_0 (t)$는 모델을 설명하는 변수들의 값이 기본값(reference)인 사람의 시간 $t$에서의 생존 확률을 의미한다. 예를 들어 모델의 기본값을 남성, 0세, 흑인, 비음주자, 비흡연자로 잡았다면, 이런 사람의 12개월에서의 생존 확률을 의미한다.

4) $e^{\sum_{i=1}^{p} \beta_i X_i}$

이 식에서 모델을 설명하는 변수는 $p$개 였음을 알 수 있고, $\beta_i$는 각 변수에 대한 회귀계수를 의미한다.

2. 생존 함수와 위험 함수의 관계

이전 포스팅에서 다음과 같은 관계를 얻어냈다. 2022.11.10 - [통계 이론] - [이론] 생존 함수와 위험 함수의 관계

$$S(t) = \exp \left[ - \int_{0}^{t} h(u) du \right] = e^{- \int_{0}^{t} h(u) du}$$

3. 콕스 회귀 모델에서 생존 함수의 표현

추가적인 notation을 두 개만 다루고 넘아가겠다.

1)$h_{\mathbf{X}}(t)$

특정 $\mathbf{X}$을 가진 사람의 시간 $t$에서의 위험 함수를 나타낸다.

2)1)$h_0(t)$

모델을 설명하는 변수들의 값이 기본값(reference)인 사람의 시간 $t$에서의 위험 함수를 나타낸다.

그렇다면 다음을 알 수 있다.

$$\begin{align} S(t,\mathbf{X})&=\exp\left[-\int_{0}^{t}h_{\mathbf{X}}(u)du\right]\\&=\exp\left[-\int_{0}^{t}h_{0}(u)e^{\sum_{i=1}^{p}\beta_{i}X_i}du\right]\\&=\exp\left[-\int_{0}^{t}h_{0}(u)du\times e^{\sum_{i=1}^{p}\beta_{i}X_i}\right] \\&=\left[S_{0}(t)\right]^{\exp\left(\sum_{i=1}^{p}\beta_{i}X_i \right)} \\&& \end{align}$$

[이론] 콕스 회귀 모델에서 생존 함수의 표현 정복 완료!

작성일: 2022.11.10.

최종 수정일: 2022.11.10.

저작자표시 비영리 변경금지

'통계 이론' 카테고리의 다른 글

[이론] 보통최소제곱법 (Ordinary Least Squares) (0)	2023.06.15
[이론] 로지스틱 회귀분석에서 회귀 계수를 구하는 방법 - Maximum likelihood estimation (0)	2022.11.25
[이론] 생존 함수와 위험 함수의 관계 (0)	2022.11.10
[이론] p-value에 관한 고찰 (0)	2022.09.05
[이론] 연속성을 수정한 카이 제곱 검정 (Chi-squared test with Yates's correction for continuity) (0)	2022.08.30

의학 통계 코드 저장소