[이론] 콕스 회귀 모델에서 생존 함수의 표현
콕스 회귀 모델에서 생존 함수는 다음과 같이 표현하곤 한다.
$$S(t,\mathbf{X}) = \left[ S_0 (t) \right] ^{e^{\sum_{i=1}^{p} \beta_i X_i}} $$
왜 이렇게 표현되는지를 이해해야 추후에 나오는 log-log plot 등을 이해할 수 있기에 여기에서 소개한다.
1. Notation
먼저 notation에 대해 소개하고자 한다.
1)$\mathbf{X}$
$\mathbf{X}$는 $X$들의 집합체이며, $X$는 모델을 설명하는 변수를 의미한다. 예를 들면, 특정 위험 요소에 노출 여부, 성별, 나이, 인종, 음주 여부, 흡연 여부 등이 있을 수 있다. 이 모든 것들을 적기에는 귀찮고 공간 낭비이므로 $\mathbf{X}$로 표현한다.
2)$S(t,\mathbf{X})$
$S(t,\mathbf{X})$는 특정 $\mathbf{X}$을 가진 사람의 시간 $t$에서의 생존 확률이다. 예를 들면, 남자, 53세, 백인, 음주자, 비흡연자의 12개월에서의 생존 확률인 것이다.
3) $S_0(t)$
$S_0 (t)$는 모델을 설명하는 변수들의 값이 기본값(reference)인 사람의 시간 $t$에서의 생존 확률을 의미한다. 예를 들어 모델의 기본값을 남성, 0세, 흑인, 비음주자, 비흡연자로 잡았다면, 이런 사람의 12개월에서의 생존 확률을 의미한다.
4) $e^{\sum_{i=1}^{p} \beta_i X_i}$
이 식에서 모델을 설명하는 변수는 $p$개 였음을 알 수 있고, $\beta_i$는 각 변수에 대한 회귀계수를 의미한다.
2. 생존 함수와 위험 함수의 관계
이전 포스팅에서 다음과 같은 관계를 얻어냈다. 2022.11.10 - [통계 이론] - [이론] 생존 함수와 위험 함수의 관계
$$S(t) = \exp \left[ - \int_{0}^{t} h(u) du \right] = e^{- \int_{0}^{t} h(u) du}$$
3. 콕스 회귀 모델에서 생존 함수의 표현
추가적인 notation을 두 개만 다루고 넘아가겠다.
1)$h_{\mathbf{X}}(t)$
특정 $\mathbf{X}$을 가진 사람의 시간 $t$에서의 위험 함수를 나타낸다.
2)1)$h_0(t)$
모델을 설명하는 변수들의 값이 기본값(reference)인 사람의 시간 $t$에서의 위험 함수를 나타낸다.
그렇다면 다음을 알 수 있다.
$$\begin{align} S(t,\mathbf{X})&=\exp\left[-\int_{0}^{t}h_{\mathbf{X}}(u)du\right]\\&=\exp\left[-\int_{0}^{t}h_{0}(u)e^{\sum_{i=1}^{p}\beta_{i}X_i}du\right]\\&=\exp\left[-\int_{0}^{t}h_{0}(u)du\times e^{\sum_{i=1}^{p}\beta_{i}X_i}\right] \\&=\left[S_{0}(t)\right]^{\exp\left(\sum_{i=1}^{p}\beta_{i}X_i \right)} \\&& \end{align}$$
[이론] 콕스 회귀 모델에서 생존 함수의 표현 정복 완료!
작성일: 2022.11.10.
최종 수정일: 2022.11.10.
'통계 이론' 카테고리의 다른 글
[이론] 보통최소제곱법 (Ordinary Least Squares) (0) | 2023.06.15 |
---|---|
[이론] 로지스틱 회귀분석에서 회귀 계수를 구하는 방법 - Maximum likelihood estimation (0) | 2022.11.25 |
[이론] 생존 함수와 위험 함수의 관계 (0) | 2022.11.10 |
[이론] p-value에 관한 고찰 (0) | 2022.09.05 |
[이론] 연속성을 수정한 카이 제곱 검정 (Chi-squared test with Yates's correction for continuity) (0) | 2022.08.30 |