Method Article
我们描述了一种多阶段方法来衡量年龄数据的队列效应,从而在许多情况下可以在不牺牲数据质量的情况下消除数据。该协议演示了该策略,并提供了用于分析肝细胞癌数据的加权回归模型。
为了消除年龄和时期对年龄周期列联表数据的影响,采用多阶段方法来评估队列效应。最常见的肝脏原发性恶性肿瘤是肝细胞癌 (HCC)。HCC 与肝硬化有关,伴有酒精和病毒性病因。在流行病学中,通过使用年龄-时期-队列 (APC) 模型描述 (或预测) HCC 死亡率的长期趋势。确定每个队列的 HCC 死亡人数及其加权影响。加权平均值的置信区间 (CI) 相当窄(与等权重估计值相比)。由于置信区间相当窄,不确定性较小,因此使用加权均值估计作为预测手段。对于多阶段方法,建议使用基于回归模型的加权均值估计来评估年龄-时期列联表数据中的队列效应。
最常见的原发性肝脏恶性肿瘤是肝细胞癌 (HCC)。其死亡率在男性中排名第五,在女性中排名第八(男性的 6%,女性的 3%) 1 在台湾,它是男性最常见的癌症,也是女性第二常见的癌症(21.8% 的男性和 14.2% 的女性) 2。据估计,自 2000 年以来,全球每年诊断出的 HCC 数量为 564,000 例,其中男性 398,000 例,女性 166,000 例 3。在流行病学中,解释年龄、时期和队列 (APC) 变量之间关系的最常见方法是年龄和时期相互影响,从而为所调查的疾病趋势创造独特的代际体验。
尽管这种概念化仍然具有年龄 + 队列 = 时期的精确线性联系,但暴露(预测因子)并不是出生队列中的固有因素。相反,我们提出,当变化导致不同的疾病分布时,存在队列效应。然而,由于年龄 + 队列 = 时期,这三个变量是线性相关的;只有在强制实施其他限制的情况下,才不可能使用年龄、时期和同期群的线性效应生成估计的年龄-时期-同期群 (APC) 模型。在这项研究中,我们澄清了这个问题以及我们在之前的出版物 4,5,6,7 中施加的潜在限制。
通过对列联表数据进行最轻微的猜想,多阶段方法 8 提供了三个阶段来评估队列效应。此外,由于中位数抛光不依赖于特定的分布或框架,因此它被用于各种类型的数据,例如比率、对数比率和计数。中位抛光是多相法中使用的主要技术。
来自双向列联表 9 的数据用于生成抛光中位数的发展。中位数抛光程序用于通过迭代地从每行和每列中减去中位数来消除年龄(即行)和时期(即列)的累积效应。该程序通常用于流行病学数据分析 10。这种技术的一个优点是,不需要对双向列联表中数据的分布或结构进行假设。因此,该技术被广泛用于表中包含的任何类型的数据,例如自杀数据 11。APC 模型也被用来描述疾病发病率或死亡率 5 的长期趋势。APC 模型通常假设年龄、时期和队列对疾病/死亡率的对数转换有累加效应。为了评估队列效应,所述方案生成了一个 APC 模型,用于通过加权回归进行完整的肝细胞癌 (HCC) 死亡率分析,从而支持对治疗效果的可靠预测和适度评估。
1. 数据源
为了证明计算结果,我们使用了 1976 年至 2015 年台湾男性和女性 HCC 死亡率的年度数据。使用适用于 Windows 和 Microsoft Excel 的社会科学统计软件包 (SPSS) 24.0 版来执行本研究的方案。
2. 型号设置
注:多阶段方法由 Keys 和 Li 8 提出,并进行了图形调查。进行中位抛光分析以消除年龄和时期的累积影响;最后,对线性回归模型中队列类别中中位波兰阶段的这些残差进行回归,并使用列联表中的数据评估队列效应。
显示了 10 个五年年龄组(40-44、45-49、50-54、55-59、60-64、65-69、70-74、75-79、80-84 和 85+)和 8 个五年时间段(1976-1980、1981-1985、1986-1990、1991-1995、1996-2000、2001-2005、2006-2010 和 2011-2015)。通过从年龄段组的总数中减去 1 来选择队列组的数量:10(五年年龄组)+ 8(五年时间段)-1 = 17 个出生队列,出生队列组用队列中期表示为 1891、1896、1901、1906、1911、1916、1921、1926、1931、1936、1941、1946、1951、1956、1961、1966、1966 和 1971。我们提供了男性和女性 HCC 患者年龄组应急情况的格式(在 补充表 1 中)。 图 1 和 图 2 显示了年龄组和经期组的 HCC 死亡率。男性的波动比女性更大。基于年龄分布的比率显示,在 40-44 岁年龄组的低端,HCC 死亡率正在增加(图 1)。相比之下, 图 2 清楚地显示 ≥ 60 岁年龄组的 HCC 死亡率逐渐增加。然而,基于年龄的 HCC 死亡率随着时间的推移发生了重大变化,这意味着隐藏在正常年龄-时期交叉分类的 Vital Statistics 表中的显着队列效应要在未来的某个时候才会变得明显。
我们对对数转换的 HCC 死亡率实施了中位抛光程序。表 1 和表 2 分别显示了男性和女性 HCC 死亡率的 APC 模型的估计队列效应。此外, 表 1 和表 2 报告了在获得加权估计之前的两个性别加权平均程序的计算。加权估计值比先前估计的队列效应更符合数据,基于加权估计值的置信区间 (CI) 的最小偏差(比较等权重估计值)。
对于男性, 表 1 的左侧面板显示了出生队列的队列效应。队列效应从 0.73(1891 年最早的队列效应)增加到 1.20(1936 年最大的队列效应)。对于女性,队列效应从 0.68(1891 年最早的队列效应)增加到 1.35(1936 年最大的队列效应)。需要强调的是,与 1891 年的队列相比,男性和女性的队列效应分别增加了约 64% 和 98%。增加的面积在 表 2 的右侧面板中均匀分布。在这里,队列效应从 0.71(1891 年最早的队列效应)增加到 1.11(1936 年最大的队列效应)。对于女性,表 2 的右列显示了增加分布的类似效果。队列效应从 0.64(1891 年最早的队列效应)增加到 1.11(1926 年最大的队列效应)。因此,与最早的男性和女性队列相比,我们观察到死亡率分别增加了约 57% 和 73%。
在出生队列中,大约 1936 年出生的男性显示出 HCC 死亡风险最高(补充表 1)。因此,对于加权估计,1936 年出生队列与 1921 年参考出生队列相比的影响为 1.11 (95% CI: 1.08-1.14)。相比之下,1891 年的早期队列显示出急剧增加的趋势。此外,在 1936 年队列之后,效果发生了逆转。在表 1 中,与 1916 年的参考出生队列相比,加权效应为 1.11 (95% CI: 1.07-1.16)。此外,对于男性和女性,我们分别对等权重和加权队列效应进行建模,具有 95% 置信区间。这两个数字都表明,等权重的队列效应比 95% CI 的几乎所有宽度都要广泛。
图 1.1976-2015 年台湾男性每 100,000 人中的 HCC 死亡率。 请单击此处查看此图的较大版本。
图 2.1976-2015 年台湾女性每 100,000 人中按年龄和时期划分的 HCC 死亡率。 请单击此处查看此图的较大版本。
图 3.台湾男性和女性肝细胞癌死亡率的年龄调整死亡率。 请单击此处查看此图的较大版本。
未加权的 | 加权 | |||
影响 | 效应的 95% 置信区间 | 影响 | 效应的 95% 置信区间 | |
队列 | ||||
(1891~1971 年) | ||||
1891 | 0.73 | 0.59-0.90 | 0.71 | 0.57- 0.88 |
1896 | 0.88 | 0.79-0.99 | 0.87 | 0.78- 0.97 |
1901 | 0.89 | 0.83-0.96 | 0.81 | 0.71- 0.92 |
1906 | 0.91 | 0.86- 0.97 | 0.85 | 0.78- 0.94 |
1911 | 0.95 | 0.90-1.00 | 0.89 | 0.83- 0.96 |
1916 | 1.01 | 0.97-1.06 | 0.99 | 0.95- 1.03 |
1921 | 1 | 裁判 | 1 | 裁判 |
1926 | 1.04 | 1.00-1.08 | 1.03 | 1.01- 1.06 |
1931 | 1.1 | 1.06-1.14 | 1.08 | 1.06- 1.11 |
1936 | 1.2 | 1.15- 1.24 | 1.11 | 1.08- 1.14 |
1941 | 1.14 | 1.09- 1.19 | 1.1 | 1.07- 1.13 |
1946 | 1.04 | 1.00-1.09 | 1.06 | 1.04- 1.09 |
1951 | 0.91 | 0.87-0.96 | 1 | 0.98- 1.03 |
1956 | 0.87 | 0.82-0.92 | 0.96 | 0.93- 0.98 |
1961 | 0.82 | 0.76-0.88 | 0.88 | 0.85- 0.92 |
1966 | 0.76 | 0.68- 0.85 | 0.79 | 0.74- 0.83 |
1971 | 0.71 | 0.57-0.87 | 0.83 | 0.80- 0.87 |
注意:REF = 参考;CI = 置信区间。 |
表 1.1891-1971 年出生队列对台湾男性肝细胞癌死亡率影响的估计率比和 95% 会议间隔。
未加权的 | 加权 | |||
影响 | 效应的 95% 置信区间 | 影响 | 效应的 95% 置信区间 | |
队列 | ||||
(1891~1971 年) | ||||
1891 | 0.68 | 0.42- 1.10 | 0.64 | 0.38-1.09 |
1896 | 0.81 | 0.63-1.04 | 0.75 | 0.56- 1.00 |
1901 | 0.8 | 0.67- 0.95 | 0.7 | 0.52- 0.94 |
1906 | 0.83 | 0.72- 0.95 | 0.76 | 0.65- 0.88 |
1911 | 0.88 | 0.78- 0.99 | 0.85 | 0.78- 0.93 |
1916 | 1 | 裁判 | 1 | 裁判 |
1921 | 1.12 | 1.01-1.24 | 1.08 | 1.03- 1.13 |
1926 | 1.29 | 1.17-1.42 | 1.11 | 1.07- 1.12 |
1931 | 1.3 | 1.18-1.43 | 1.1 | 1.05- 1.15 |
1936 | 1.35 | 1.22-1.49 | 1.1 | 1.04- 1.14 |
1941 | 1.19 | 1.07-1.32 | 1.09 | 1.03-1.13 |
1946 | 1.05 | 0.94-1.17 | 1.06 | 1.02-1.11 |
1951 | 0.83 | 0.73-0.94 | 1 | 0.96-1.05 |
1956 | 0.67 | 0.58-0.77 | 0.93 | 0.89-0.98 |
1961 | 0.58 | 0.49-0.70 | 0.79 | 0.74-0.84 |
1966 | 0.59 | 0.46-0.75 | 0.58 | 0.49-0.69 |
1971 | 0.63 | 0.40-1.02 | 0.64 | 0.58-0.72 |
注意:REF = 参考;CI = 置信区间。 |
表 2.1891-1971 年出生队列对台湾女性肝细胞癌死亡率影响的估计比率和 95% 会议间隔。
补充表 1.请点击此处下载此表格。
由于 HCC 死亡率的时间趋势,传统模型低估了数据中隐藏的一些重要特征(例如队列效应),并且使用观察到的对数年龄校正率的简单线性外推的传统分析表明其预测的准确性显着降低。很明显,这种趋势已经持续了 35 年,如果我们直接观察 1976 年至 2015 年台湾 HCC 死亡率的长期趋势,未来几年将呈上升趋势(图 3)。事实上,台湾 HCC 死亡率的最新趋势正在下降,这是由队列效应(由 APC 分析确定)驱动的,如前所述,该效应在 1936 年队列之后下降。这项研究表明,APC 模型的应用提供了有关趋势变化的高级和更准确的警告。
从临床角度来看,大约有 20 亿人感染乙型肝炎病毒 (HBV) 12,约有 3.5 亿人因此而受苦。因此,这是一个严重的健康问题,在世界范围内发病率很高。HBV 感染可引起广泛的临床问题,包括无效携带者状态导致暴发性肝炎、肝硬化或肝细胞癌。最有效的预防方法是为个体接种乙型肝炎疫苗。台湾于 1984 年 13 月实施首个全球乙肝大规模疫苗接种计划。在该计划中,对孕妇进行乙型肝炎表面抗原 (HBsAg) 和乙型肝炎包膜抗原 (HBeAg) 筛查 14。在该计划的前两年,免疫计划仅涵盖患有 HBsAg 的母亲的婴儿。然而,从疫苗接种计划的第三年开始,所有婴儿都得到了保障。近年来,乙型肝炎疫苗的覆盖率已达到 99% 15。近 90% 至 95% 的人在接种三剂疫苗后将获得终身免疫力。我们强调,台湾儿科 HCC 的下降主要归功于这项全球疫苗接种计划。
本文中描述的 APC 模型提供了有关这些(增加的)趋势变化(在不久的将来会减少)的高级警告。在比较队列效应(表 1 和 2)和年龄调整死亡率(图 3)的趋势时,直接年龄调整死亡率(或年龄标准化死亡率)与加权平均值相同。它根据本研究中 2000 年世界标准人口 16 (World Standard Population 16 ) 的相关年龄组的比例对年龄死亡率进行加权。由于队列效应的验证主导了 HCC 死亡率的最新模式,我们计算了最新数据(直到 2011-2015 年)的年龄调整后 HCC 死亡率。我们将其解释为,队列的加权平均估计提供了可靠的信息,而研究准备预测未来的 HCC 死亡率。有关预测 HCC 死亡率的详细信息,请参阅我们之前的研究 5。
一般假设是数据中的每个值都提供相同的信息来评估模型中的参数。此方法已用于大多数建模方法(例如线性或非线性回归模型),这意味着误差项的标准差是基础预测变量的常数。然而,根据我们的文献综述,这个假设并不适合用于建模以实证估计参数。当我们使用加权回归时,将估计未知参数,加权回归会生成较小的权重,但数据点的准确性较低,而权重较大,数据点的准确性较高。加权过程减少了估计器的标准差。尽管如此,加权回归方法的缺点在实证实践中几乎是未知的。由于确切的权重未知,因此使用估计的权重来估计参数。此外,以前的经验表明,基于估计的加权不会显着改变或通常影响回归分析或其解释 17。假设 APC 模型可以适用于发病率受年龄、时期和队列影响的任何疾病。此外,加权均值估计可用于预测 18,19,20。如果 CI 相对较窄,则不确定性较小。鉴于 CI 描述了此类评估中固有的不确定性及其中的价值,我们通常得出结论,使用 CI 具有重大影响。
经导管动脉化疗栓塞术 (TACE) 是临床上控制 HCC 的最有效方法之一。然而,很难选择这种方法作为主要或辅助疗法,因为它不需要开放手术。肝脏通常通过肝门静脉提供 75% 的血液和营养物质,而肝动脉提供 25% 的血液和营养物质。与从大多数 HCC 中提取的肝动脉血相比,这种液体迅速增加,很少来自肝门静脉。此外,这种作用非常适合 TACE,因为原发性肝癌很少转移到身体的其他部位。尽管肝细胞恶性肿瘤不太可能转移,但它们很难根除。在临床实践中,HCC 患者的随访每 2 到 3 个月进行一次。一旦检测到甲胎蛋白 (AFP) 异常升高或超声检查异常,应进行计算机断层扫描和磁共振成像。如果发现新的肿瘤,则将考虑 TACE。还开发了新的生物标志物来检测 HBV 相关 HCC 的复发,例如 HBV DNA 定量时间指数 (HDQTI) 21。随访结果与检测到的 HBV DNA 负载比与正常 HBV DNA 负载比的乘积是 HDQTI 的总和。HDQTI 用作 HBV 相关 HCC 复发的独立预后指标 21。
我们的研究有几个局限性。首先,我们只是假设观察到的变化的病因。使用 APC 模型,根据年龄、时期和队列效应重新考虑了 HCC 死亡率。尽管如此,在这项研究中,我们使用中位数抛光设置作为假设。其次,APC 分析已广泛用于发展中国家或近期发达国家的流行病学领域,用于长期队列研究。第三,我们没有来自累积格式数据集的信息来调整 APC 模型中的混杂因素,例如合并症或生活方式。未来的研究需要孤立的数据来解决这一限制。第四,为了修改多阶段方法中的回归程序,我们使用 HCC 导致的死亡人数作为权重。由于确切的权重未知,因此使用各种权重会导致估计的队列效应内出现轻微的膨胀。最终,有多种 APC 估计方法可以解决无法识别的问题(例如,Holford 使用线性和曲率趋势来解决无法识别的问题 22)。同时,中位数抛光以 APC 模型之间的概念转换形式提供了复杂的假设,以最少的假设评估队列效应,并轻松将通用格式应用于列联表。
总体而言,加权估计允许每个队列的 CI 相对较窄的加权均数效应来修改回归模型。简而言之,对于多阶段方法,建议使用回归模型的加权估计来评估年龄-时期列联表数据中的队列效应。
作者没有什么可披露的。
这项工作得到了台北慈济医院 TCRD-TPE-109-RT-8 (2/3) 和 TCRD-TPE-109-39 (2/2) 的支持。
Name | Company | Catalog Number | Comments |
not applicable | not applicable | not applicable | not applicable |
请求许可使用此 JoVE 文章的文本或图形
请求许可This article has been published
Video Coming Soon
版权所属 © 2025 MyJoVE 公司版权所有,本公司不涉及任何医疗业务和医疗服务。