COX比例风险回归模型笔记

COx回归模型简介

Kaplan-Meier法与寿命表法研究的是单个分组变量的生存分析，而Cox比例风险回归模型（Cox proportional hazard regression medel）研究的由是多因素生存分析的主要方法。此方法是由英国统计学家Cox提出的而因此命名。

Cox模型的基本形式

$h(t,{\bf{X}})=h_{0} exp({\bf{\beta' X}})=h_{0}exp(\beta_{1}X_{1}+\beta_{2}X_{2}+\cdots+\beta_{m}X_{m})$

其中$h(t,{\bf{X}})$是具有协变量${\bf{X}}$的个体在时刻t时的风险函数，t为生存时间，${\bf{X}}=(X_{1},X_{2},\cdots,X_{m})’$是可能影响生存时间的有关因素，也称协变量，这些变量可以是定量的，也可以是定性的，在整个观察期间内不随时间的变化而变化。$h_{0}(t)$是所有协变量取0时的风险函数，称为基线风险函数（）。${\bf{\beta}}=(\beta1,\beta2,\cdots,\beta_{m})’$为Cox模型的回归系数，是一组估的回归参数。由于此公式右侧的$h_{0}(t)$不需要服从特定的分布是形状，具有非参数的特点，而指数部分$exp({\bf{\beta’X}})$具有参数模型的形式，因此模型又称为半参数模型（semi-parametric model）。

如果采用生存率表示，则模型可写为：

$S(t,{\bf{X}}=S_{0}(t)^{exp({\bf{\beta'X}})}=S_{0}(t)^{exp(\beta_{1}X_{1}+\beta_{2}X_{2}+\cdots+\beta_{m}X_{m})}$

其中S(t,X)是具有协变量X的个体在时刻t时的生存率，$S_{0}(t)$为在时刻t的基线生存率。

RR或HR

两个分别具有协变量$X_{i}$和$X_{j}$的个体，其风险函数之比值为相对危险度（risk ration，RR）或风险比（hazard ration，HR），是一个与时间无关的量，即

$h(t,{\bf{X_{i}}}/h(t,{\bf{X_{j}}}=exp[{\bf{\beta(X_{i}-X_{j)})}}]$

例如$X_{i}$是暴露组观察对象对应各因素的取值，$X_{j}$是非暴露组观察对象对应各因素的取值，求得${\bf{\beta}}$的估计时后就能救出暴露组对非暴露组的相对危险度估计。

因素的初步筛选与最佳模型的建立

1. 因素的筛选：影响生存时间的因素称为协变量，当协变量较多时，需要对这些协商量进行筛选。

2. 最佳模型的建立：为建立最佳模型常需要对研究的因素进行筛选，筛选因素的方法有前进法，后退法和逐步回归法。在逐步筛选变量建立多元Cox回归模型的时候需要规定检验水准，以确定方程中引入哪些因素和剔除哪些因素，一般情况下确定引入检验的水准为0.05，剔除检验水准为0.1。检验各因素是否有统计学意义的方法有似然比检验、Wald检验和计分检验。

比例风险假定的检验

Cox比例风险回归模型的主要前提是假定风险比值$h(t)/h_{0}(t)$为固定值，即协变量对生存率的影响不随时间的改变而改变，只有该条件得到满足，Cox回归模型的结果才有效，检验这一假定条件的方法有：

①如果分类协变量的每一组别的Kaplan-Meier生存曲线间无交叉，同满足比例风险假定；

②以生存时间t为横轴，对数生存率$ln[-ln\hat{S}(t)]$为纵轴，绘制分类协变量每一组别的生存曲线，如果协变量各组别对应的曲线平行，则满足风险比例条件；

③对于连续型协变量，可将每个协变量与对数生存时间的交互作用项$(Xln(t))$放入回归模型中，如果交互作用项无统计学意义，则满足风险比例条件。

当风险比例的假定条件不成立时，可采用如下方法解决：①将不成比例的协变量作为分层变量，然后再用其余变量进行多元Cox回归模型分析；②采用参数回归模型替代Cox回归模型进行分析。

案例分析流程

案例

（例19-5）为探讨某恶性肿瘤的预后，某研究值得收集了63例患者的生存时间生存结局及影响因素。影响因素包括患者年龄、性别、组织学类型、治疗方式、淋巴结转移、肿瘤浸润程度，生存时间t以月计算。变量的同形和所收集的资料分别见下表，试用Cox回归模型进行分析。

完整数据单击此处。

R包及函数

所用到R包为survival，所用函数如下所示：

coxph：构建COX回归模型
cox.zph：检验PH假设是否成立
survreg：构建参数模型

计算流程

导入原始数据：

1 2	data1905 <- read.csv("https://raw.githubusercontent.com/20170505a/raw_data/master/data_szq_survival_cox1.csv",sep=",") # read raw data

构建生存分析对象：

data1905.surv <- Surv(data1905$t,data1905$Y)
coxph.data1905 <- coxph(data1905.surv ~ X1+X2+X3+X4+X5+X6,
                        data=data1905,
                        method="breslow")

筛选变量：

1	step(coxph.data1905)

结果如下所示：

AIC信息准则

从筛选的变量结果来看，里面含有AIC的字样，AIC的全称为Akaike information criterion，这是衡量统计模型拟合优良性的一种标准，由于它为日本统计学家赤池弘次创立和发展的，因此又称赤池信息量准则。

在一般的情况下，AIC可以表示为： AIC=2k-2ln(L)
其中：k是参数的数量，L是似然函数。假设条件是模型的误差服从独立正态分布。让n为观察数，RSS为剩余平方和，那么AIC变为： AIC=2k+nln(RSS/n)。

AIC鼓励数据拟合的优良性但是尽量避免出现过度拟合(Overfitting)的情况。所以优先考虑的模型应是AIC值最小的那一个。赤池信息准则的方法是寻找可以最好地解释数据但包含最少自由参数的模型。

从step(coxph.data1905)计算的结果来看，筛选出来的变量是X4和X5，如下所示：

然后对X4和X5进行Cox回归，如下所示：

1 2	fit <- coxph(data1905.surv~X4+X5,data=data1905,method = "breslow") fit

结果如下所示：

从结果中可以看来，新型疗法的死亡风险只是传统疗法的0.172倍，协变量X5对应的相对危险度为2.538，这说明有淋巴结转移者的死亡风险是无淋巴结转移风险者的2.5倍。