我的博文
肿瘤临床试验结果和终点的发展史
理想的肿瘤治疗应该是让患者活的更长、更好,肿瘤临床试验终点应显示患者生存或生活质量有临床意义的改善。可选择的终点,如无进展生存期(progression-free survival,PFS)、无疾病生存期(disease-free survival,DFS)和客观反应率(objective response rate,ORR),已经用于识别临床试验的早期获益,但他们是否能够真正的作为代替终点的有效性是有争议的。
加拿大多伦多的玛格瑞塔公主癌症中心 Wilson 教授于 2015.1 在 Lancet Oncol 杂志上发表综述,讨论了肿瘤治疗中使用的试验终点的测量、评估、获益和局限性。许多利益相关者均受影响,包括监管机构、行业合作伙伴、临床医生、最重要的是病人。
介绍:
肿瘤治疗的目标是能够让患者比没有接受治疗活的更长、更好。相应地,评估疗效的金标准是有统计意义、以及总生存期(overall survial,OS)、生活质量或肿瘤相关症状减轻等临床意义的改善。然而,问题是谁来定义临床意义,因为在患者、医生、监管机构之间的选择存在很大的变化。
总生存期作为治疗结果的评估是明确的。然而,作为治疗获益的明确标志是有争议的。细胞毒药物疗效的改善和新的治疗方法的出现,以及对疾病生物学更好的理解,意味着现在的某些癌症行为像慢性疾病。监测临床试验总生存期的不同非常复杂,因为复杂的结果与试验持续时间、成本、样本大小和疾病进展后治疗的选择相关。而如果将癌症作为慢性疾病,新的治疗方法则需要对病人有临床意义的结果,如提高生活质量、控制症状和治疗耐受。
基于此,一些终点,如无进展生存期(PFS)和至肿瘤进展时间(time to progression, TTP)等用于临床试验,因为它们与总生存期相比,能够更快的提供评估治疗效果的差别。然而,它们本身能否成为有意义的结果,还只是单纯地作为总生存期和疾病控制的替代终点,仍未有统一的认识。
与总体生存期不一样,试验终点如 PFS 和 TTP 较少受后续治疗、姑息治疗及并发症的影响。与死亡相比,疾病进展期仍作为试验终点,但是需经过不连续临床和放射学评估的鉴定和评价,其结果很依赖这些检查的时机。在日常实践中,临床疾病状态是由临床、生化、放射因素等建立的,而由放射学评估单纯评定的试验结果会有更强的客观性。
癌症是具有不同自然史和临床特点的多种疾病。因此,试验设计需要适应疾病的内在属性和患者的人群特点以确保有意义的临床结果。这种方法将有助于鉴定那些可以从治疗获益的小的同类亚群。作者检索了现在肿瘤临床试验中使用的临床结果评估,并评估了现代肿瘤学环境中的这些实践。
临床试验中的终点设计:
关于 OS 和 PFS 作为临床试验结果评估的观点是两极分化的。治疗有效性定义为:与没有接受治疗的患者相比,有临床意义的获益是客观上使患者生存更长或更好,或两者兼有。这一疗效的评估可能显示在症状的改善、或疾病进展终点的改善。需要将疾病和治疗特征(预后、侵略性疾病、症状和抢救治疗 ) 应用到试验设计中以便定义合适的终点。
例如,在转移性胆囊癌这个几乎无治疗可选的疾病中,其中位总生存期不到 1 年,所以总生存期的小幅延长都可能是临床获益。而在一个惰性疾病中,如卵巢颗粒细胞瘤,其中位总生存期超过 15 年并倾向于晚期复发,故短期内用总生存期来检测治疗获益是不现实的,更多的客观衡量临床有意义的获益倾向于症状或生活质量的改善。
总生存期和代替的终点
总生存期是精确的终点,可以显示患者在经过固定时期后的生存时间。代替终点可以间接评估临床获益的作用,因为与总生存期相比它们可以在更短的时间内大致获得成果;然而,它们通常是从试验数据中外推结果的,因此有误导结论的风险。代替终点的定义是复杂而矛盾的。因此,代替终点一般倾向于作为临床终点而存在。
当然,代替终点能否作为临床终点仍存在争议。Prentice 标准为代替终点的有效性提供了指南,并帮助描述干预和终点利益的关系。此项有效性的关键标准是假设代替终点的干预效果也可以导致临床终点有意义的改变。
设计一个临床试验,决定使用代替终点前必须考虑到两点,即:试验期更短(比设立的临床终点可能更快的得出结论)、代替终点从历史的试验数据中外推出的结论的不确定性可能增加。如果不确定性超过了试验期更短的优势,那么它将不能作为代替终点,因为这可能不能真正反映患者的临床结果。但是,如果有证据表明代替终点是获益的,还应考虑其他因素,如治疗效果的生物机制可能影响代替终点。
同时,代替终点的病人管理也得与以前的试验相似。最后,将观察期内至代替终点中发生的严重的、有害的副作用的出现与临床终点的时间相比。在实践中,不确定性也涉及到这些问题。例如,通常对新治疗方案的长期毒性知之甚少。由美国 FDA 更新的靶向治疗数据显示:39% 的严重药物副反应和 39% 潜在的致死性副反应在随机实验中未描述,49% 的严重药物副反应和 58% 潜在的致死性副反应在起初的药物中未描述。
代替终点如 PFS(图 1)常用于评估总生存期,但是代替终点是否能够评估临床获益(如患者症状控制或减轻)仍需考虑。PFS 是最常见的代替终点,通常定义为从任意时间到肿瘤进展或死亡的时间。然而 TTP 定义为从任意时间到疾病进展、不包括死亡。疾病进展的准确时间由独立的临床评估或影像学评估建立,也决定于肿瘤的生长率。
图 1. 肿瘤试验中使用的临床终点(经美国肿瘤协会的允许改编自 Matulonis 和其同事的研究)
其他的代替终点包括:辅助治疗试验中的无疾病生存期或无复发生存期、客观反应率、至疾病进展期。新的靶向药物治疗允许使用患者间的至疾病进展率来比较新干预措施与之前治疗的反应。但这些措施易受测量误差、评估和失访偏倚的影响。
PFS 是不完美的结果评估但却是临床试验设计的中心。对于某些类型的肿瘤,PFS 的改善也许不能显示患者真正的获益,因为 PFS 代替 OS 并不常见、也许依赖于治疗环境。还由于其它一些原因,PFS 的临床获益也许不能转换为 OS 的临床获益。第一、后续治疗可能减少起初的获益。第二、在某些肿瘤中有明确肿瘤进展(肿瘤负荷改变)也许不足够改变死亡的时间。第三、延长对靶向治疗的暴露时间可能导致肿瘤进化并显示不同的表型,这样,抵消了从治疗中获取的最初获益。
OS 由 PFS 和疾病进展后的生存期组成,在临床试验中,潜在的干预包括患者疾病进展后交叉到另一个组,接受以下方案:换一种药物治疗、继续使用相同的药物 (如果它有改善症状的好处)、或没有进一步治疗。这些选项的异质性使其很难评估最初干预对整体生存效果的影响(如果真的存在),由于每个后续干预因素都很复杂。
用统计分析和相关性模型来评估 PFS 和 OS 之间的一致性,发现当进展后的中位生存期很短(< 12 个月),PFS 似乎是 OS 较为合理的代替终点。如:在晚期结直肠和广泛期小细胞肺癌中证实 PFS 和 OS 之间存在强相关性。相反,在一些疾病中,如转移性乳腺癌或疾病进展后长期生存的复发性卵巢癌中,OS 和 PFS 之间的关系存在分歧,因为进展后仍有许多有效的治疗手段可选。然而,该相反的证据也存在于单独接受曲妥珠单抗或联合帕妥珠单抗治疗的 HER-2 阳性转移性乳腺癌患者中。
PFS 不受交叉治疗和后续治疗的影响,因此可能允许直接评估干预措施对疾病控制的效果。从社会的角度来看,都希望能够使用所有可能的治疗让病人活得更长或更好 (或两者皆有)。然而,如果一种药物在经过选择后的患者人群显示的生存获益和一个大型临床试验中显示相同的生存优势,此策略可能会更适合并具有潜在的成本效益。
最佳支持治疗也可能够影响患者的生存结果。3 期试验研究结果发现将年龄、生活能力评分、及性别均考虑在内(风险比 [HR]1.7;p=0.01),早期即对患者采取缓解措施可改善转移性非小细胞肺癌患者的生活质量和总生存期(8.9 月 比 11.6 月;p=0.02)。尽管受限于肺癌,但此研究显示,在研究治疗期之外的变动也可能影响患者进展后的生存。
试验终点易出现误差和偏倚,因为它们是对连续时间内的对照组和干预组肿瘤偶然事件的评估。此外,从分析中排除那些失访的或开始接受新治疗的患者,这些都存在偏倚。在治疗组和对照组中的审查不平衡也将影响结果。例如,BOLERO-2 的研究结果显示治疗组中 24% 的患者与对照组中 6% 的患者都在接受非连续的治疗;因此,以起初的 PFS 决定正真的疗效很困难。大多的统计模型假设:审查的患者与未审查的患者的预期生存期相同。
对无疾病活动期或无疾病相关症状的患者进行维持治疗给定义和研究临床获益增加了挑战。在卵巢癌中,PARP 抑制剂的使用显示设计合适的试验终点体现(或排除)患者的生存结果改善也较难。PARP 抑制剂的试验显示了单药治疗临床上令人信服的效果,尤其是生殖细胞系 BRCA 突变的女性,在维持治疗期持续使用这些药物已看到了持久的效益。然而,已知这些病人的疾病一般对化疗反应较好,在中位生存期 5-7 年里可能有多达十个不同线的治疗。因此在该试验中设计显示总生存期获益是相当具挑战的。
临床试验的最佳终点应该具有以下特征:依靠长期维持治疗;可能有轻度的副作用、长期来看可能损害生活质量,但比短期化疗的影响范围小。但是患者的生存获益很难显示,因为疾病进展后仍有有效的(或可供选择的)治疗可选。PARP 抑制剂似乎有临床意义,但客观的定义和评估此效益仍然很难。病人疾病进展延迟可能会减少情绪困扰,但需要权衡药物毒性和病人的喜好。此情况下强调了显示什么治疗可以使患者总的生活质量更好并能够控制症状的困难。在维持治疗中总生存期可能不是最好终点,这就提出了试验终点选择问题的重要性。
其他终点
至疾病进展期或治疗
在一些试验中至第二次或第三次进展期已作为总生存期的代替终点 (图 1),并被欧洲药品机构作为一个可行的终点用于注册临床药物试验。至第二次进展期定义为从任意时间到客观的疾病进展 (或死于任何原因),至第三次进展期定义为从任意时间到客观的第三次疾病进展(或死于任何原因)。这对患者疾病进展后临床获益的保存提供了信心,因为观察到的获益是持续的并且可以影响后续反应的治疗。
与至第二次进展期相比,至第二次后续治疗期或至死亡可能更接近临床实践(因为假说认为后续治疗开始于疾病进展而非药物毒性),并且更容易评估。尽管如此,因为患者异质性和疾病进展后选择的治疗,这些偏倚都可能影响结果,但理论上程度低于总生存期作为主要结果评估。
无病生存期或无事件生存期
在开始辅助治疗时,治愈是治疗的目标。在注册临床抗肿瘤药物试验中已批准无病生存和无事件生存作为代替终点。通常用来显示总生存期获益的时间是不切实际的;因此,无病生存和无事件生存是可以接受的替代终点并且与临床相关。这两个终点显示病人无疾病的持续时间。
客观反应率
客观反应率通常是加快结果认可的代替终点。例如,经药物测试后的药物被认为优于当前治疗可用的药物,若被加快认可则可允许将其快速运用到患者身上,进一步检测该药可能的实际效益的加固试验也将完成。实际上,与肿瘤范围缩小相比,治疗反应的持续期与临床更相关,尤其是在生物制药的年代。因为许多新药更多的是抑制细胞而非细胞毒导致疾病不稳定,患者的客观反应率可能较低,但可显示明显的 PFS 和 OS 获益。
索拉非尼在肾细胞癌中只有少于 11% 的客观反应率,但是仍有明显的生存获益。类似地,在肝细胞癌中,接受索拉非尼治疗的患者仅有 2% 的客观反应率;然而,中位总生存期(10.7 月 : 7.9 月)和至肿瘤进展期(5.5 月 : 2.8 月)都显示了有统计意义的改善。在难治性非小细胞肺癌中(nonsmall cell lung cancer, NSCLC),厄诺替尼仅有 8.9% 的客观反应率,但是在 OS 上有统计学意义(厄诺替尼 6.7 月 : 安慰剂 4.7 月)。
客观反应率包括部分或完全缓解的患者比例,尽管任何效应都归因于药物效果,反应和临床获益的关系是不清楚的且易受评估错误的影响。当与合适的生物标志物相配合时,一些生物制剂已显示明显的、快速的肿瘤反应和客观缓解率,这强调了特定靶向药物认知的重要性。
FDA 已批准客观反应率作为肿瘤治疗试验中的代替终点,并用于突破性试验加快药物的批准。一项从 1990 到 2002 年的 FDA 药物批准的研究,显示 26/57 个常规批准是基于肿瘤反应,9 项是因为肿瘤相关症状的改善。
另外一项研究也显示了相似的结果。在那些接受当前治疗的患者人群中,药物的高反应率已作为药物批准可靠的、强硬的标准。Tsimberidou 及其同事报道了基于单臂研究的 31 个药物批准被撤退。我们需要谨慎的是单臂研究中的患者也许没什么并发症,或比目前的试验有更好的支持治疗,这些使得可能不准确的显示任何获益的大小。
2 期试验的客观反应率与 3 期试验的成功相关。一项对 6 种类型肿瘤的 89 个靶向治疗的检索显示客观反应率与高的无进展率相关,并且可以预测重大的药物审批(p=0.005)。在转移性乳腺癌中,患者接受化疗获得的客观反应可以预测患者的生存期(p<0·0001),进展期结直肠癌患者也有相似的关系。此关系是否交叉存在于肿瘤类型、疾病分期中目前仍不清楚。
疾病稳定
疾病稳定通常不作为治疗反应的评估标准,但是可以指导继续治疗。检索的一个试验包含一组未接受任何积极治疗的患者,这些接受安慰剂或最佳支持治疗的晚期实体瘤患者约有 25% 实现了病情稳定(范围为 0-67%),许多肿瘤标准的生长率刚好符合疾病稳定的定义。如果疾病稳定不能纳入试验设计,只有当它有临床意义或生存期延长(最少 6 月)时才应该完成,但是在解释统计结果时需谨慎,尤其是那些生长缓慢的肿瘤。
生活质量
健康相关的生活质量被定义为疾病对个体身体、心理、社会、躯体功能和总体幸福感的影响。症状控制指一个或多个症状的缓解,与健康相关生活质量几乎相似但不应与之混淆。FDA 认为症状的改善可以直接评估患者的临床获益,也是药物审批重点考虑的。肿瘤研究与治疗欧洲组织(European Organization for the Research and Treatment of Cancer,EORTC)对传统评估方法的改善:生活质量核心问卷 30(Quality of life Questionnaire-Core 30,QLQ-C30)和肿瘤治疗的功能评定( Functional Assessment of CancerTherapy),现在这些包括了更多的肿瘤、治疗和特异性症状分数。
健康相关生活质量的评估是试验的重要组成,至少作为第二结果,作为系统治疗的亚组成仅赋予了症状缓解。显示生活质量改善是很重要的,尤其是 OS 增殖很小的时候。一项比较三药联合治疗(5- 氟尿嘧啶、奥沙利铂、伊立替康)与吉西他滨单药治疗胰腺癌的研究显示了健康相关生活质量作为临床试验终点的重要性,因为在权衡 3 药联合的生存获益和 3 或 4 级药物毒性时,健康相关生活质量经三药联合治疗后有所改善。健康相关生活质量的解释相当具挑战性,因为其评估是经过客观定义的,在患者中也很难总结。而且个体患者有意义的获益可能被总的获益评估所掩盖。
患者完成问卷的能力是有偏倚的,因为要依赖于评估的时间和疾病发生的轨迹时间 。患者健康相关生活质量的改变可能与患者正在进行的治疗无关,而是疾病进展的症状或之前治疗的后果。对 NSCLC 患者的一项试验显示了后续药物治疗所致健康相关生活质量更严重的损伤。患者也很有可能因为其问卷与其他对治疗反应很好的患者的问卷不相同而备受坏消息的打击;还有,药物毒性和获益对一个 30 岁的患者而言是可以接受的,而对一个 80 岁的患者则截然不同。健康相关生活质量的评估需要与客观反应率和总生存期等终点的评估一样强硬。
一项 112 例随机对照试验显示评估健康相关生活质量的方法与研究明显不同。尽管健康相关生活质量是个体患者的特点,但这些研究仅有 25% 报道了个体患者的评分。组间意义或中位数的不同会掩盖个体治疗的获益。仅 21% 的研究定义了什么组成了对缓解治疗的反应,13% 报道了反应的持续期,仅 4% 进一步认证了对缓解治疗有反应,但是在后期对患者的重新评估后。目前发布的案例很少显示之前的健康相关生活质量的评估和症状控制已起初用于药物基金决定,但是这些因素必须缓解治疗试验的组成,并被监管机构认为是重要的。
PFS 和上报的个体患者的结果是治疗的基本目标,但现在缺少探讨他们关系的医学文献。予最佳支持治疗的晚期结直肠癌患者伴或不伴帕尼单抗治疗的研究分析显示了健康相关生活质量、疾病症状和 PFS 都存在统计学意义。该研究的学者假定临床获益是由于肿瘤生长停止,有 10% 的患者获得完全缓解并且有 27% 进一步实现了疾病稳定。在索拉非尼治疗肾癌,吉西他滨和卡培他滨治疗胆管癌中也有相似的效果。
技术的运用
临床结果的准确判定要依赖于评估它们时使用的方法的强大。日常实践中常使用临床、生物医学和放射科来评估患者,但是传统中的试验,实体瘤的反应,都仅基于影像学方法试图确保客观性。另外,对放射科结果标志的非依赖中心和客观的检索越来越需要。然而,尽管此标准与评估偏倚相关。使用疾病进展生物医学标志物来决定临床结果是有限的,并且几乎不单独于其他的评估方法。
妇科肿瘤国际组织(The Gynecologic Cancer Inter Group)已将监测卵巢癌治疗中 CA125 浓度作为指南(一种标志物在一些肿瘤中可能会升高)但这些通常是治疗的附带结果并且不用于定义疾病进展。在前列腺癌中,前列腺特异性抗原(PSA)用于判断疾病进展或反应的标志物,常与生活质量评估联合 ,因为许多患者通过影像学标准无可数的病灶。
RECIST
1979 年 WHO 建立了第一个国际认可的影像评估实体恶性肿瘤治疗疗效标准,该标准需要 2 维影像和计算肿瘤负荷。实体瘤客观反映评估标准(objective Response Evaluation Criteria In Solid Tumours,RECIST)建立于 2000 年(版本 1.0),2009 年更新(版本 1.1)。与 WHO 标准相比,RECIST 使用 1 维影像评估部分反应率定义为特定数量的可测量病灶最大径总和减少 30%,设计这些标准是用来为国际研究院间提供客观的、统一的、可靠的方法显示试验中肿瘤负荷的改变。
治疗反应测量的多变性仍然是个难题。一项关于 NSCLC 的研究显示组内观察有 9.5% 误将未变化的病灶归纳为进展病灶,组间观察有 29.8% 误将未变化的病灶归纳为病灶进展。怎样显示患者的临床状态与根据 RECIST 标准定义的疾病进展或部分反应变化的关系极具挑战。根据 RECIST 标准,肿瘤大小 19% :21% 似乎不会导致症状的改变,但这是疾病进展的定义标准。另外,患者肿瘤缩小 29% 与肿块生长 19% 的结果应该不一样,但更据 RESIST 标准两者都是病情稳定。
实际上,肿瘤缩小的患者与无缩小的患者相比应该更有可能显示症状获益。与特定的截值相比,认为肿瘤反应作为病情的连续变量更具信息性,且与患者生存相关性更好。然而,研究显示,当与 RECIST 评估相比,使用此方法评估肿瘤反应来预测患者结果并无改善。评估的时机必须能够反应治疗的生物机制及反应的预期时间,因为有些肿瘤在反应出现前,可能在治疗开始后出现轻度的进展。
例如,在前列腺癌治疗初期 PSA 浓度升高,骨扫描也错误的显示疾病进展。为了解释骨扫描复发(也就是爆发),指南推荐延迟疾病评估和 PSA 浓度检测直到第一个 12 周的治疗,除非有连续的进展迹象。RECISTS 的建立是由于当时主要的可行治疗是细胞毒化疗。 临床实验显示用此标准在归纳新的靶向治疗、生物治疗、免疫治疗上具局限性,大部分由于影像上显示的肿瘤体积在显示当前活性肿瘤的数目上很差。例如,在胃肠间质肿瘤,根据 RECIST1.0 评估就低估了伊马替尼的反应。
CT 上肿瘤密度减少并且有超过 15% 或 10% 的肿瘤缩小 2 个月要比 RECIST 评估的治疗反应更有敏感性、特异性。抗肿瘤生成药物通常与肿瘤中心形成空洞及坏死相关,这就使得准确的评估临床反应和肿瘤进展具有挑战。此外,因为许多靶向治疗为抑制细胞生长而非细胞毒,在治疗起初肿块缩小也许并不明显。疾病稳定、反应延迟、或临床反应后暂时的肿胀都是较为常见的结果。
类似的结果也可见于免疫治疗药物,如治疗转移性黑色素瘤的伊匹单抗,在经过一段时期的肿瘤爆发或假性进展后可能出现肿瘤反应。因此,创立的了改良的免疫反应相关标准去最佳的评估肿瘤反应或进展,但是这些标准作为代替终点需要认证和评估。
影像学进步
由于治疗诱导的纤维化或坏死致活性肿瘤组织变异在传统的 CT 上很难看出。人们对(¹⁸F-FDG) PET 的兴趣越来越多,动态对比也增加了 MRI 区分活性和非活性疾病的能力。一般认为经过 1 个或 2 个周期的化疗后再行 PET 扫描能够比 RECIST 更好的显示预测的淋巴瘤反应,并且更好的作为一些靶向治疗的肿瘤反应标志。
例如,NSCLC 住院患者对吉非替尼的反应(不是化疗)在 PET 上的显示与治疗后的解剖反应、PFS、尤其是 OS 相关。因为,¹⁸F-FDG 的摄取与肿瘤的细胞数量相关,通常对肿瘤治疗反应要比肿瘤大小减少更快。结合 PET 作为前线方法去评估肿瘤对治疗反应的试验仍需要认证。并非所有的疾病对¹⁸F-FDG PET 都具有高反应,并且肿瘤细胞早期的葡萄糖摄取增加并非是所有靶向治疗反应的必要预测,如在 mTOR 抑制剂中看到的一样。
PET 探查肿瘤大小变化的敏感性和特异性可能通过使用新的影像试剂而改善,可能改善疾病分期及鉴定出适合特定靶向治疗的患者。在神经内分泌肿瘤,生长抑素受体成像用于分期和鉴别出受益于放射性同位素示踪的类似物 [⁹⁰Y] DOTATOC 和 [¹⁷⁷Lu]octreotate 和 edotreotide 的患者。
循环肿瘤细胞核 DNA
仍需探索出新的疾病进展指示物,在未来有可能会动摇传统的临床反应定义。在一些肿瘤中,循环肿瘤细胞被假定为提供疾病治疗期间状态的实时特征,在转移性乳腺癌、前列腺癌和结直肠癌的患者中显示了预测和预后的价值。 在转移性乳腺癌,循环肿瘤细胞的数量显示更具繁殖性,和早期的放射学评估(WHO 标准)相比与患者的生存更相关。
在前列腺癌,循环肿瘤细胞计数比 PSA 浓度减少更好的预测患者的总生存期(p<0·02)。此外,循环肿瘤细胞计数可以提供预后信息,如同在结直肠癌中运用影像学。循环肿瘤细胞计数具有允许早期评估反应的优势,意味着可以避免不必要的无效治疗。然而, 转化治疗相应致持续的循环肿瘤细胞计数增高(至少在乳腺癌)还未显示改善患者结果。
循环肿瘤细胞计数的数据在其他不是主要靠血液扩散的肿瘤中还未经确认。在卵巢癌,显示仅有 14.4% 的复发患者每 7.5ml 血液中 2 个循环肿瘤细胞或更多。循环肿瘤 DNA(circulating tumour DNA ,ctDNA)可能比循环肿瘤细胞计数更容易获得和进行操作。
在进展期癌症, ctDNA 可以构成 1%–10% 的循环 DNA,包括从原发肿瘤和转移灶中流出的 DNA。这表明 ctDNA 的浓度与肿瘤负荷相关,因为研究显示术后浓度减少,若术后增加则提示出现新的病灶。与癌胚抗原(carcino-embryonic antigen,CEA)浓度相比,术后 ctDNA 浓度对结直肠癌复发显示更好的预测价值。卵巢癌中,ctDNA 浓度与 CA-125 浓度显示疾病活性相平行。在一项大型的随机对照试验中联合使用循环肿瘤计数和 ctDNA 浓度受限于中心之间结果的再现行和必要技术的可行性。
统计注意事项
临床试验结果是提出问题的适当反映。预先计划的统计分析为确定试验结果提供一个重要的方法。事后检验分析,虽然对生成假说很有用,但易受偏倚影响。统计数据为评估证据的力量提供一个正式的框架,来但有意义的结果仍然有错误的风险。声称概率真实的研究主要依赖于研究实力和偏倚、先前概率的真实性、统计意义的显示。许多调查人员都会问一个相似的问题,即高概率可能致一个不正确的结果。
误差α为 0.05,20 个研究中有一个研究问同一个问题就有可能因独立机会致阳性结果,但不依赖于任何真正的临床获益。因此需要外部验证和平行于其他研究的解释。试验设计的关键是检查什么是对治疗反应的合理差异、什么是有价值的临床效益的定义。一些研究者建议寻找大的靶向获益,因此需要改变患者目前的治疗实践。标准治疗改变的关键优势是它可以允许小的研究和可能加速药物发展。然而,小样本可能增加统计的不确定性及忽略了那些适合临床实践的微弱获益,因此需要权衡。
在肿瘤试验中,P 值仍然是评估结果是否为偶然的主要值。在大多数试验中,P 值通常设为 0.05,因为大多临床医生较愿意接受结果为 5% 假阳性的概率。问题随之产生,是否存在这样的情况:临床医生可能愿意接受增加的假阳性风险,如果能够获得更多有意义的临床获益。目前, 临床医生的确接受增加的风险,如果患者的临床获益是实际的,尤其是在可供选择的是有限情况下(例如,仅基于 2 期数据,迅速将克唑替尼用于 ALK 阳性的肺癌患者)。
而且,在统计学刺激下,统计模拟评估两个治疗优势试验表明:与传统的试验相比,小样本大小和高α值导致长期生存获益。这些因素尤为重要,因为癌症成为罕见的亚实体的集合暗示了试验募集和试验总体的大小。尽管试验结果是有意义的,但从临床角度来看获益可能很小。
埃罗替尼用于胰腺癌显示了相对风险降低 18%(p = 0·038),换句话来说就是,患者中位总生存期不到 2 周的改善。统计解释的临床价值是很重要的。置于临床价值的环境中解释统计是很重要的。FDA 批准的药物在过去 10 年里的总体效果很差,只有中位生存期 2.16 月和 PFS 2.15 月的获益。
新的进展
试验中合适的终点依赖于临床环境,并需要谨慎的解释。难题是怎样明智的使用这些终点改善患者结果,定义肿瘤间和患者间的异质性,并具有临床意义。理想的临床终点应该是为患者带来有形的获益,其本身就是一个挑战。生活质量评分需要细致的评估和类似于临床反应评估获益或生活质量无改善所用的标准和指南。需要改善健康相关生活质量的分数和减少以姑息为目标的 2 和 3 期临床试验的药物毒性,这些都是基本原则,并且是重要的终点。受限的是当前实践中本办法的重复性和有效性。
当药物用于一般群体和有并发症的患者时,其在临床试验中的轻微获益可能会减少,甚至会增加毒性。随机对照试验在探查或排除病人是否受益于药物中是必不可少,但应紧随观察研究或售后研究去定义一般群体的毒性和有效性。
客观评估患者有意义的获益是试验设计的至高点,评估的结果需要适合患者群体的疾病和治疗的程序。试验和终点需要进一步改进来反映人们对疾病生物学日益增加的理解,疾病反应和获益的预测指标,临床医生需接近和填补这一鸿沟。
共0条评论