流行病学学习笔记(二):队列研究(cohort study)
Feb 28, 2019
2 minute read

本文是流行病学学习笔记的第一篇,上课时间为 2019 年 2 月 25 日。

基本原理

队列(cohort)在流行病学中指有共同经历或有共同状态的一群人。 队列研究(Cohort study)指选定暴露于及未暴露于某因素的两组人群,随访观察一定的时间, 比较两组人群某种时间的结局(一般指疾病的发病率或死亡率),从而判断该暴露因素与发病或死亡有无关联及关联大小的一种观察性研究方法。

病因和危险因素研究是流行病学研究的重要任务,病因研究的逻辑顺序应该是先有病因存在,然后又疾病发生。 所以队列研究的特点是由因到果

危险因素(risk factor)指能隐去某特定不良结局,或使其发生的概率增加的因子,包括个人行为等等。 危险因素的反面称为保护因素,两者统称决定因素。而这个概念在流行病学中逐渐淡化,将以前所谓的「危险因素」等概念统称为「暴露」。

暴露是研究对象接触过某种待研究的物质或具有某种研究的特征或行为,是本研究需要探讨的因素。

队列有固定队列(fixed cohort)和动态队列(dynamic cohort)之分。

动态队列由于开始时间的不统一和失访等退出队列的情况存在,所以存在不同样本对于队列的贡献无法统一衡量。 因此出现了一种新的衡量方法:「人年」,即用样本的数量乘以该样本进入队列的时间。

队列研究的历史

从 Jone Snowl 的伦敦霍乱调查开始,奠定了队列研究的雏形。 最早的队列研究一词出现是美国流行病学家 1935 年提出,但是该概念与今天含义不同。 现代队列研究作为一种流行病学研究的方法,得到广泛的应用,相关论文数量变化十年翻一番,著名的研究包括:

  • doll 关于医生吸烟与肺癌的队列研究
  • 美国佛明汉的心脏病研究
  • 原子弹爆炸的幸存者研究

现在,「超大型队列」的概念突破了传统队列研究,摒弃了一因一果的概念。 世界最大的 50 到 55 万人超大型队列,总共有 3 个。

特点

队列研究有以下几个特点:

  • 观察性研究
  • 设立对照组
  • 由因及果,时序合理
  • 检验暴露于疾病的因果联系科学性强

用途

队列研究可以用来:

  1. 检验病因假设:验证某种暴露因素对某种疾病发病率或死亡率的影响,也可以同时观察某种暴露因素对人群健康的系统影响;
  2. 描述疾病的自然史:疾病的自然发展过程,包括疾病的起病(病理发生期)、潜伏期(隐伏期)、临床前期、临床期到结局的全过程;
  3. 评价预防措施效果:验证某种行为或习惯变化产生的健康影响,如戒烟或使用大量蔬菜对肠癌的影响;
  4. 药物的上市后监测:对于通过临床三期的临床试验的治疗药物,上市后,监测人群用药的安全性、有效性。

类型

队列研究根据研究方法可以分为:前瞻性队列研究、历史性队列研究、双向性队列研究。 历史性队列回顾性地收集已有的历史资料,而前瞻性队列从此时开始收集资料,双向性则是两者的结合,即向后收集历史资料,也向前收集未知资料。

前瞻性队列研究

研究对象的分组是根据目前的暴露情况,研究的结局需要随访观察一段时间才能得到。这是队列言情剧的基本形式。 该类的最大优点是可以获取相对真实可靠的资料,但是如果观察大量人群花费太大。如果疾病的潜伏期很长,则需要观察的时间很长。

前瞻性研究需要研究的检验假设明确,疾病的率至少不低于 5%,暴露因素明确,且能有效测量;结局明确,可以可靠方式确定;有足够的研究人群; 队列能够有效随访;有足够的物质、人力和资金的保证。

历史性队列研究

研究工作时现在开始的,研究对象的分组是过去某个时间,研究的结局在研究开始时已经发生,暴露到结局的方向是前瞻性的。

历史性队列研究的特点包括节省时间、人力和物力,出结果快,因而适宜于长诱导期和长潜伏期的疾病; 常用于具有特殊暴露的职业人群的研究;研究常常缺乏影响暴露与疾病关系的混杂因素的资料,以至影响暴露组与未暴露组的可比性。

历史性队列研究的条件除了要具备前瞻性队列条件外,还应具备足够数量的、完整可靠的、在过去时段的研究对象的暴露和结局的历史记录。

双向性队列研究 ambispective cohort study

在历史性队列研究之后,继续进行前瞻性队列研究叫做双向性队列研究(ambispective cohort study)。 这种研究具有上述两种研究的优点,在一定程度上弥补了它们的不足。

双向性研究需要基本具备历史性队列研究条件,如果暴露到现在的观察时间不足,且有条件继续进行观察,可以采用双向性队列。

队列研究的实施

确定设计方法的原则

根据上述各种研究类型的条件选择合适的研究类型,设计研究方法。

确定暴露因素

暴露因素通常是在描述性研究或病例对照研究的基础上确定的。尽量对暴露因素进行定量处理,除了暴露剂量水平外, 还应考虑暴露的时间长度,以及暴露是否连续。除了要确定主要的暴露因素外,也应同时手机其它次要的暴露因素资料及一般特征资料。

对暴露的测量可以是定性或定量测量,具体测量方法一般包括访谈、实验室检查和查阅记录。随着科技的进步,暴露水平的测量已经从 宏观群体水平发展到个体水平,分子水平。

确定结局

结局不仅限于发病,还有死亡和各种化验指标,如血清抗体的滴度,血脂、血糖等等。结局事件指研究对象个体而言,与观察期的终点不是一个概念。 判断结局的标准应当尽量采用国际或国内统一标准。

确定研究现场与研究人群

尽量选择领导重视、群众支持,有足够符合条件的研究对象,医疗条件好,交通便利,发病率较高,有代表性的研究现场。 研究人群从目标人群中抽出的具有代表性的人,未患所研究疾病的人,并分为暴露人群和非暴露人群。

暴露人群主要类型有:特殊暴露人群、一般人群、有组织的人群团体和志愿者。 其中特殊暴露人群指对某因素有高的暴露水平的人群。如果暴露因素与疾病有关,则高度暴露的人群中疾病的发病率或死亡率有可能高于其他人群。 某些职业中存在特殊暴露因素,可以作为特殊暴露人群。选择特殊暴露人群做队列研究时,常使用历史性队列研究。

对照人群为排除未暴露于研究的因素外,其他各种因素或人群特征尽可能与暴露人群相同。 对照人群类型包括:内对照、外对照、总人口对照和多重对照。

内对照是在同一研究人群中,采用没有暴露或暴露水平最低的人员作为对照。选择内对照,对照人群与暴露人群的可比性好。但研究环境或职业暴露时难以实施。 外对照是职业人群或特殊暴露人群常需要在该人群之外特设对照组,可以避免“污染”,但缺点是可比性受到影响,且工作量加大。

一般人群对照,即不设立特殊对照,暴露人群发病率与一般人群进行比较。这样可以节省大量经费和时间,但资料不够全面,且可比性较差。

多种对照就是对上述对照方法的综合,进行多重比较。

确定样本大小

队列研究的样本量大小主要取决于 4 个参数:

  1. 一般人群中研究疾病的发病率
  2. 暴露人群的发病率:与一般人群发病率差距越大,所需观察人数越少
  3. 显著性水平
  4. 把握度

样本大小可以通过以下公式计算:

$$ N = \frac { \left( Z _ { a } \times \sqrt { 2 \overline { P } ( 1 - \overline { P } ) } + Z _ { \beta } \times \sqrt { P _ { 1 } \left( 1 - P _ { 1 } \right) + P _ { 0 } \left( 1 - P _ { 0 } \right) } \right) ^ { 2 } } { \left( P _ { 1 } - P _ { 0 } \right) ^ { 2 } } $$

其中:

  • P 代表两个发病率的平均值
  • P_1 代表暴露组预期发病率
  • P_0 代表对照组预期发病率

资料的收集

需要收集暴露、结局、可能产生混杂的因素等种类的资料。前期对队列进行基线调查的资料,以及之后随访观察的资料收集。 收集资料按如下四格表进行整理:

病例 非病例 合计
暴露组 a b a+b = n1
非暴露组 c d c+d = n0
合计 a+c=m1 b+d=m0 a+b+c+d=t

暴露组发病率为 a/n1,非暴露组发病率为 c/n0。

资料的整理和分析

率的计算

累积发病率(cumulative incidence, CI):当观察人口比较稳定时,不论观察时间长短, 以开始观察时的人口数为分母,整个观察期内发病人数为分子,得到累积发病率。

$$ 累积发病率 = \frac{观察期间发病人数}{观察队列人数} $$

发病密度(incidence density)适用于观察时间长,人口不稳定,存在失访的情况。计算方法为:

$$ ID = \frac{观察期内发病人数}{观察人时} $$

其中观察人时即观察人数乘观察时间,最常用的时间单位是年,即以人年为单位计算发病率或死亡率。

标化死亡比(standardized mortality ratio, SMR)适用于结局时间的发病率低的情况,计算方法是:

$$ SMR = \frac{研究人群观察发病(死亡)数}{标准人口预期发病(死亡)数} $$

SMR 代表被研究人群发生某病的危险性是标准人群的多少倍。

暴露于疾病关联的指标

病例 非病例 合计
暴露组 a b a+b = n1
非暴露组 c d c+d = n0
合计 a+c=m1 b+d=m0 a+b+c+d=t

再次借用上面提到的四格表形式。 队列研究的效应估计包括相对危险度、归因危险度、归因危险度百分比、人群归因危险度、人群归因危险度百分比等。

相对危险度 relative risk, RR

相对危险度反映暴露与发病或死亡关联强度的指标,也叫危险比(risk ratio, RR),其本质是率比,为暴露组的率与非暴露组的率之比。

$$ RR = \frac{I_e}{I_0} = \frac{a/n_1}{c/n_0} $$

RR 值所代表的关联强度如下表:

RR 关联强度
0.9~1.0 或 1.0~1.1
0.7~0.8 或 1.2~1.4
0.4~0.6 或 1.5~2.9
0.1~0.3 或 3.0~9.9
<0.1 或 10~ 很强

归因危险度 attributable risk, AR

又叫特异危险度,本质为差率,即暴露组的率与非暴露组的率之差,说明由于暴露增加或减少的率的大小。

$$ AR = I_e - I_0 = \frac{a}{n_1} - \frac{c}{n_0} $$

RR 说明的是暴露对于个体增加发生危险的倍数,而 AR 是对人群来说,暴露增加的超额风险的比例。

归因危险度百分比 AR%

$$ AR% = \frac{I_e - I_0}{I_e} \times 100% $$

归因危险度百分比代表暴露人群中的发病或死亡归因于暴露的部分占全部发病或死亡的百分比。

人群归因危险度 population attributable risk, PAR

计算方法为总人群率减去非暴露组率:

$$ PAR = I_t - I_0 $$

人群归因危险度代表暴露人群与一般人群比较,所增加的疾病发生率的大小。 PAR 值越大,暴露因素消除后减少的疾病数量越多。

队列研究相关偏倚

选择偏倚 selection bias

由于选择的研究对象有人不能参加,可能都为志愿者,早期病人早研究开始时未能发现等等原因,都可能会造成选择偏倚。 在队列研究的过程中,不可避免会出现失访,因此而造成的偏倚叫做失访偏倚。失访所产生的偏倚大小主要取决于失访率的大小和失访者的特征。

选择偏倚可以通过以下措施控制:严格按照规定的标准选择研究对象;查明愿意加入和不愿意加入研究人员差异;尽可能提高研究对象的依从性; 对于失访可能的影响应当做进一步估计,从各种途径了解失访者的最后结局,与被随访到的人群的阶矩进行比较,以推测失访的影响。

信息偏倚 information bias

主要为错分偏倚,包括暴露错分和疾病错分以及暴露于疾病的联合错分。错分主要原因可能是检验技术出现问题,诊断标准定义不明确或掌握不当等。 若这种错分偏倚以同样的程度发生于观察的各组,则结果可能不会对各组之间的相对关系产生太大影响,但会低估相对危险度,这种情况叫做非特异性错分。

控制信息偏倚,可以通过提高设计水平和调查质量,做好质量控制;明确各项标准,严格按照规定执行,定期抽取一定比例的样本复查。

混杂偏倚 confounding bias

混杂、混杂因素和混杂偏倚的概念和控制方法都与病例对照研究相似。

优缺点

队列研究的优点包括,可以直接获得暴露组与非暴露组的发病率或死亡率。 且由于原因发生在前,结局发生在后,检验病因假说的能力比较强。这样就有助于了解疾病的自然史,并可以获得暴露于疾病结局的关系。 队列研究样本量大,结果稳定,收集的资料完整可靠,不存在回忆偏倚。

缺点则是不适于发病率很低的疾病的病因研究,由于长期的研究与随访,因为死亡、退出、搬迁等造成的失访难以避免。 且研究耗费时间、人力和花费。随着时间推移,未知的变量引入人群可能导致结局收到影响。

作业

找一个队列研究的文献,对它的暴露和结局,从暴露和结局测量有效性的角度进行评述。