BMC 의학 연구 방법론 저널을 훑어보다 '로지스틱 회귀를 이용하여 비교 위험도를 추정하는 간단 기법'이라는 논문(원문 링크: http://www.biomedcentral.com/1471-2288/12/14)을 읽게 됐다. 흔한 결과 변수인 경우 오즈비(OR)가 과다 추정되므로 위험비(RR)를 산출해야 되는데 다변수 모형에서 값을 얻기는 생각보다 쉽지 않다. 논문의 방법보다 서론에서 언급된 대로 (1) binreg 명령어를 이용하여 binomial regression을 적용하거나(참고문헌 4), (2) (1)의 방법의 경우 데이터가 크면 수렴이 안되는 경우가 흔하므로 Cox regression을 응용하면 된다(참고문헌 6).
* Hosmer & Lemeshow의 low birth weight data 불러오기.
. webuse lbw
(Hosmer & Lemeshow data)
* oddsrisk 명령어를 이용하여 단변수 분석으로 OR과 RR을 산출해 비교하기.
. oddsrisk low smoke
---------------------------------------------------------------------
Incidence for unexposed risk group = 0.2522
---------------------------------------------------------------------
Predictor Odds Ratio Risk Ratio [95% Conf. Interval]
---------------------------------------------------------------------
smoke 2.0219 1.6076 1.0591 2.2230
---------------------------------------------------------------------
* Stata에서 binomial regression을 이용하여 RR 구하기
. binreg low smoke, rr nolog
Generalized linear models No. of obs = 189
Optimization : MQL Fisher scoring Residual df = 187
(IRLS EIM) Scale parameter = 1
Deviance = 229.8045995 (1/df) Deviance = 1.228902
Pearson = 188.9999911 (1/df) Pearson = 1.010695
Variance function: V(u) = u*(1-u) [Bernoulli]
Link function : g(u) = ln(u) [Log]
BIC = -750.4021
-----------------------------------------------------------------------
| EIM
low | Risk Ratio Std. Err. z P>|z| [95% Conf. Interval]
------+----------------------------------------------------------------
smoke | 1.607642 .3433245 2.22 0.026 1.057812 2.443262
cons | .2521739 .040495 -8.58 0.000 .1840819 .3454532
-----------------------------------------------------------------------
* Stata에서 Cox regression을 응용하여 RR 구하기
. gen time=1
. stset time, fail(low==1)
failure event: low == 1
obs. time interval: (0, time]
exit on or before: failure
-----------------------------------------------------------------------
189 total obs.
0 exclusions
-----------------------------------------------------------------------
189 obs. remaining, representing
59 failures in single record/single failure data
189 total analysis time at risk, at risk from t = 0
earliest observed entry t = 0
last observed exit t = 1
. stcox smoke, vce(robust) nolog
failure _d: low == 1
analysis time _t: time
Cox regression -- Breslow method for ties
No. of subjects = 189 Number of obs = 189
No. of failures = 59
Time at risk = 189
Wald chi2(1) = 4.92
Log pseudolikelihood = -307.61219 Prob > chi2 = 0.0266
-----------------------------------------------------------------------
| Robust
_t | Haz. Ratio Std. Err. z P>|z| [95% Conf. Interval]
------+----------------------------------------------------------------
smoke | 1.607642 .3442364 2.22 0.027 1.056637 2.44598
-----------------------------------------------------------------------
다변수 모형에서 적용을 위해서는 설명 변수에 원하는 교란 변수를 포함시켜주기만 하면 된다.