The hierarchy of evidence: Is the study’s design robust
人们极易受到确认偏误的影响。我们倾向于抓住任何支持我们立场的信息,而盲目地忽略任何与之相悖的信息。在科学领域,这种情况尤为突出。人们喜欢认为科学站在自己一边,并且经常引用科学论文来支持自己的观点。引用科学文献当然是件好事。事实上,我经常强调,在科学问题上,我们必须依赖同行评审的文献 。问题在于,并非所有科学论文都质量上乘。粗制滥造的研究有时也会发表,而且如今的学术论文数量如此庞大,以至于只要你仔细查找,几乎任何你能想到的观点都能找到至少一篇支持。因此,我们必须始终谨慎对待那些与我们先入为主的观念相符的论文,并且应该始终认真审查发表的论文。我之前曾探讨过这个问题,并描述了拒稿的合理和不合理标准;然而,这两篇文章主要关注的是研究本身是否正确,而实际情况远比这复杂得多。要知道,科学研究有很多不同的类型,有些设计比其他设计更稳健、更有效。因此,即使两项研究都正确无误,也可能得出截然不同的结论。所以,在审阅一篇论文时,务必仔细查看所使用的实验设计类型,并判断其是否稳健。 为了帮助您实现这一目标,我将简要介绍一些比较常见的设计,从功能最弱的开始,逐步过渡到功能最强大的。
注:在开始之前,我想先做几点说明。首先,这种证据等级划分只是一个通用指南,并非绝对规则。当然,有些情况下,设计相对较弱的研究结果可能胜过设计更严谨的研究(我会在文章中讨论一些这样的例子),而且目前还没有一个普遍认可的证据等级划分标准,但普遍认为,这里列出的顺序确实反映了研究设计本身的稳健性(许多不同的等级划分标准包含一些我没有讨论的标准,因为我只关注研究设计本身)。其次,我列出的“非常弱”和“弱”设计的具体顺序可能存在争议,但关键在于它们始终被认为是最低级别的证据。第三,为了简洁起见,我只会用最概括的术语来描述不同类型的研究设计。大多数设计都有子类别,这里就不赘述了。第四,这种层级结构与人类健康问题最为相关(例如,特定疾病的病因、药品或食品的安全性、药物的有效性等)。然而,许多其他学科也使用类似的方法,本文的大部分内容也适用于这些学科(例如,荟萃分析和系统评价始终处于最高层级)。最后,请注意,为了便于本文讨论,我假设所有研究本身都已正确完成,并使用了适用于该特定类型研究的对照组、随机化方法等。实际上,这些都是您在阅读论文时必须仔细审查的内容。
意见/信件(强度=非常弱)
有些期刊会发表观点文章和读者来信。这些文章在学术出版物中相当少见,因为它们并非真正的研究。相反,它们通常是作者为某个特定立场辩护,解释研究为何需要朝着某个方向发展,阐述某篇论文存在的问题等等。这些文章质量可能相当不错,因为它们通常由相关领域的专家撰写,但你不应该将它们误认为是新的科学证据。它们应该基于证据,但通常不包含任何新信息。因此,用“一项研究发现……”来描述这类文章是不恰当的。你可以说“这位科学家提出了以下论点,而且这个论点很有说服力……”,但你不能将论点与证据的性质混为一谈。需要明确的是,论点可以非常有启发性,并且常常能够推动未来的研究,但你不能断言“疫苗会导致自闭症,因为这位科学家在这篇观点文章中这样说”。观点应该始终指导研究,而不是被当作研究本身来对待。
病例报告(强度=非常弱)
这些本质上是经过美化的轶事,通常是对某个单一事件的记录。在医学领域,这类报道通常以单个患者为中心,内容包括对某种治疗的新反应、奇特的生理畸形、新疗法的成功、罕见疾病的进展等等。其他领域也经常有类似的出版物。例如,在动物学中,我们有“自然史笔记”,记录的是一些新发现的特征或行为(例如,首次发现某种物种的白化病、新的饮食记录等等)。
病例报告可以作为进一步调查的起点,但它们通常只是一个单一的数据点,因此不应过分依赖。例如,假设一种新型疫苗问世,在其使用的第一年,一位医生遇到一位患者,该患者在接种疫苗后不久开始出现癫痫发作。因此,他撰写了一份病例报告。这份报告应该(而且很可能会)受到科学/医学界的重视,他们随后会开展一项研究来检验该疫苗是否真的会导致癫痫发作,但你不能将这份病例报告作为疫苗危险的有力证据。你必须等待一项大型研究的结果才能得出结论。永远不要忘记,事件 A 发生在事件 B 之前并不意味着事件 A 导致了事件 B(这实际上是一种被称为 “后此谬误” 的逻辑谬误)。癫痫发作完全有可能是由与疫苗无关的因素引起的,只是恰好发生在接种疫苗后不久。
动物实验(强度=弱)
动物实验是指利用动物测试药物、转基因生物等,以了解其安全性和有效性,然后再进行人体试验。动物实验在证据等级中的位置尚存争议,但通常被置于较低层级。原因很简单:人类的生理机能与其他动物不同,因此药物在人体内的作用可能与在小鼠、猪等动物体内的作用不同。此外,动物实验的效力取决于实验动物的生理机能与人类生理机能的匹配程度(例如,在大多数情况下,黑猩猩实验比小鼠实验更具说服力)。
由于动物实验本身存在局限性,它们通常仅被用作未来研究的起点。例如,当一种新药研发成功时,通常会先进行动物试验,然后再进行人体试验。如果动物试验结果显示有效,则会批准进行人体试验。然而,一旦人体试验完成,动物试验的结果就变得无关紧要了。因此,你应该非常谨慎地将你的立场/论点建立在动物试验的基础上。
然而,需要指出的是,某些研究方向必然需要使用动物。例如,当我们研究急性毒性并试图确定某种化学物质的致死剂量时,使用人类受试者显然是极其不道德的。因此,我们依赖动物实验,而不是直接使用人类来确定化学物质的致死剂量。
最后,我想强调的是,动物实验的问题不在于统计学,而在于其适用性。你可以(也应该)采用随机对照设计进行动物实验。这会给你带来极高的统计效力,但你得到的结果可能并不适用于人类。换句话说,你可能已经非常有力地证明了 X 在小鼠身上的行为,但这并不一定意味着它在人类身上也会表现出相同的行为。
In vitro 体外研究(强度=弱)
体外实验(in vitro) 一词源于拉丁语,意为“在玻璃器皿中”,通常指“试管实验”。换句话说,这些实验室试验使用分离的细胞、生物分子等,而不是复杂的多细胞生物体。例如,如果我们想知道药物 X 是否能治疗癌症,我们可以先进行体外实验,取一盘分离的癌细胞,用药物 X 处理,观察结果。
问题在于,在像试管这样受控的有限环境中,化学物质的行为往往与在像人体内这样极其复杂的环境中截然不同。人体内每秒钟都会发生数千种化学反应,这些反应可能会与正在测试的药物发生相互作用,从而阻止其发挥预期作用。例如,一种能够杀死癌细胞的化学物质要想发挥作用,必须能够通过人体运输到达癌细胞,同时还要忽略健康细胞,不与其他数千种化学物质发生相互作用(或者至少不能以有害或妨碍其作用的方式相互作用),并且必须真正杀死癌细胞。因此,证明某种药物在培养皿中能够杀死癌细胞,仅仅解决了这个庞大而复杂难题中的一小部分。所以, 体外研究应该是一个研究领域的起点,而不是终点。然而,人们似乎常常意识不到这一点,我经常看到一些体外研究被吹捧为某种新疗法的“神药”、转基因生物有害的证据、疫苗会导致自闭症的证据等等。实际上,在得出结论之前,必须等待设计更为严谨的研究。需要明确的是,就像动物研究一样,这是一个应用问题,而不是统计学问题。
横断面研究(强度=弱-中等)
横断面研究(也称横向研究或患病率研究)旨在确定特定人群在特定时间点某种特定特征的患病率,并通常考察该特征与一个或多个变量之间的关联。这类研究仅为观察性研究。换句话说,它们在收集数据时不会干预或影响患者。通常,这类研究通过问卷调查或查阅医疗记录来进行。例如,您可以进行一项横断面研究,以确定特定人群在特定时间点的心脏病发病率,同时,您还可以收集其他变量(例如某些药物)的数据,以了解某些药物、饮食等是否与心脏病相关。换句话说,这类研究通常只是寻找患病率和相关性。
这种方法存在几个问题,通常导致其效力较弱。首先,它缺乏随机化,因此很难控制混杂变量。其次,它往往依赖于人们准确记忆细节和如实回答的能力。或许最重要的是,横断面研究无法确定因果关系 。例如,假设你进行了我之前提到的关于心脏病的研究,发现心脏病患者与服用药物 X 的人之间存在很强的关联。但这并不意味着药物 X 会导致心脏病。因为横断面研究本质上只关注某一时间点,所以无法区分因果关系。或许,心脏病引发了其他问题,而这些问题反过来又导致人们服用药物 X(因此,是疾病导致了药物的使用,而不是反过来)。或者,可能存在你没有考虑到的第三个变量,它既导致了心脏病,也导致了对药物 X 的需求。
因此,横断面研究既可用于了解特定人群中某种特征(例如疾病)的患病率(这实际上是其主要功能),也可用于作为未来研究的起点。例如,发现心脏病与 X 之间的关系,很可能会促使开展随机对照试验,以确定 X 是否确实会导致心脏病。然而,这类研究也可用于表明两个变量之间没有关联。换句话说,如果发现 X 与心脏病相关,那么只能说明两者之间存在关联,但无法确定其原因;但是,如果发现 X 与心脏病不相关 ,则可以说现有证据不支持 X 导致心脏病的结论(至少在该研究的统计功效和可检测效应量范围内)。
病例对照研究(强度=中等)
病例对照研究也属于观察性研究,其研究方法与我们通常理解的实验有所不同。它们从结果入手,然后试图找出导致结果的原因。通常的做法是设置两个组:一组出现目标结果,另一组没有出现目标结果(即对照组)。然后,研究人员会比较每个组中某些潜在原因的发生频率。
为了说明这一点,我们继续使用心脏病和 X,但这次,我们建立一个病例对照研究。为此,我们将有一组患有心脏病的人,以及另一组没有心脏病的人(即对照组)。重要的是,这两组人群应该在混杂因素方面进行匹配。例如,你不能将一组患有心脏病的穷人与一组没有心脏病的富人进行比较,因为经济状况是一个混杂变量(也就是说,经济状况可能是造成差异的原因,而不是 X)。因此,你需要将患有心脏病的富人与没有心脏病的富人进行比较(或者将穷人与穷人进行比较,并匹配性别、年龄等因素)。
现在我们有了两个组(一组患有心脏病,另一组未患心脏病,且已匹配其他混杂因素),我们可以观察每组中 X 的使用情况。如果 X 会导致心脏病,那么我们应该看到心脏病组的 X 使用率显著高于非心脏病组;而如果 X 不会导致心脏病,那么两组的 X 使用率应该相同。重要的是,与横断面研究一样,这种研究设计也难以区分因果关系。然而,在某些情况下,如果能够确定预测变量发生在结果之前,并且所有混杂因素都已考虑在内,那么这种研究设计确实有可能显示因果关系。但通常情况下,至少有一个条件无法满足,因此这类研究容易出现偏差(例如,心脏病患者比非心脏病患者更容易记住服用过 X 之类的事情)。因此,通常无法从病例对照研究中得出因果结论。
然而,这类研究最大的优势或许在于它能够处理罕见事件。例如,假设你想研究某种罕见症状,这种症状的发生率仅为千分之一。进行横断面研究或队列研究将极其困难,因为你需要数十万人才能获得足够多的出现该症状的人群,从而达到足够的统计效力。但病例对照研究可以解决这个问题,因为你首先选取一组出现该症状的人群,然后将其与一组未出现该症状的人群进行匹配。这样,你就能获得强大的统计效力来研究其他方法无法研究的罕见事件。
队列研究(强度 = 中等至强)
队列研究可以采用前瞻性或回顾性方法(病例对照研究始终是回顾性的)。在前瞻性研究中,研究人员会选取一组目前未出现目标结局(例如心脏病)的人群,这些人群在接触某种潜在致病因素(例如 X)方面存在差异(或未来可能存在差异)。然后,研究人员会对他们进行一段时间的随访,观察他们是否会发展出目标结局。需要明确的是,这仍然是一项观察性研究,因此研究人员实际上并没有让他们接触潜在致病因素。相反,研究人员选择的人群中,部分个体在没有研究人员干预的情况下就已经接触到了该致病因素。因此,在我们的例子中,研究人员会观察服用 X 的人群在几年内是否更容易患上心脏病。如果能够获取详细的医疗记录,也可以进行回顾性研究。在这种情况下,研究人员会以相同的方式选择初始人群,但不会实际追踪该人群,而是查看他们未来几年的医疗记录(当然,这需要能够获取大量人群的良好医疗记录)。
这类研究通常非常昂贵且耗时,但它相比其他方法具有一个巨大的优势,那就是能够真正检测到因果关系。由于可以追踪结果的进展,因此可以观察潜在原因是否确实先于结果出现(例如,心脏病患者在患病前是否服用过 X)。重要的是,仍然需要考虑所有可能的混杂因素,但如果能够做到这一点,就可以提供因果关系的证据(尽管其效力不如随机对照试验)。此外,队列研究通常可以计算特定治疗/活动相关的风险(例如,服用 X 与不服用 X 相比,患心脏病的风险)。
随机对照试验(强度=强)
随机对照试验(通常缩写为 RCT)是科学研究的黄金标准。它是最有效的实验设计,能够提供最确凿的结果,也是大多数人最熟悉的实验设计。要开展一项随机对照试验,首先要选择一个混杂变量尽可能少的研究人群(即,组内所有成员在年龄、性别、种族、经济状况、健康状况等方面应尽可能相似)。接下来,随机抽取一半受试者进入对照组,另一半进入实验组。随机化步骤的重要性不容忽视,它是随机对照试验如此强大的关键特征之一。在之前的所有实验设计中,都无法随机决定谁接受治疗谁不接受治疗,这极大地限制了控制混杂因素的能力,也难以确保两组受试者除了接受目标治疗之外,在其他所有方面都完全相同。然而,在随机对照试验中,你可以(而且必须)进行随机化,这会大大提高统计效力。
除了随机分组外,这些研究还应采用安慰剂对照。这意味着治疗组的受试者接受正在测试的药物(例如 X),而对照组的受试者接受无效的安慰剂治疗。理想情况下,应采用双盲法。换句话说,患者和研究人员都不知道受试者的分组情况。这可以避免安慰剂效应和研究者偏倚。其他研究设计缺乏安慰剂和双盲这两个要素。例如,在病例对照研究中,受试者知道自己是否服用了 X,这可能会影响研究结果。
综合考虑以上所有因素,这种设计的优势就显而易见了。由于研究对象是预先选定的,因此在控制混杂因素方面拥有无与伦比的能力,并且可以对无法控制的因素进行随机分组。此外,还可以消除安慰剂效应和研究者偏倚(至少在数据收集阶段)。所有这些因素共同作用,使得随机对照研究成为最佳的研究设计。
现在你可能想知道,如果这些方法这么好,为什么我们不一直使用它们呢?我们不总是使用它们的原因有很多,但我只提几点。首先,这样做通常是不道德的。例如,用这些研究来测试疫苗的安全性通常被认为是不道德的,因为我们知道疫苗是有效的;因此,进行这类研究就意味着明知故犯地阻止儿童获得救命的治疗。同样,故意让受试者接触已知有害物质的研究也是不道德的。所以,在这些情况下,我们必须依赖其他不涉及对受试者进行实际操控的研究设计。
不进行这类研究的另一个原因是,如果您感兴趣的结果极其罕见。例如,如果您认为某种药物会在每10000人中造成1人严重不良反应,那么您几乎不可能获得足够的样本量来进行此类研究,而需要改用病例对照研究。
成本和精力也是重要因素。这类研究往往耗资巨大且耗时,研究人员通常缺乏必要的资源进行投入。此外,在许多情况下,其他研究设计所需的医疗记录唾手可得,因此尽可能多地从中学习是明智之举。
系统评价和荟萃分析(强度 = 非常强)
位于证据金字塔顶端的是系统评价和荟萃分析。它们本身并非实验,而是对既往实验的回顾和分析。系统评价会仔细梳理文献,寻找特定主题的信息,然后将众多试验的结果浓缩成一篇论文,全面阐述我们对该主题的认知。荟萃分析更进一步,它会将多篇论文的数据集合并,并对所有数据集进行统计分析。
这两种设计都能得出非常有力的结果,因为它们避免了依赖单一研究的陷阱。阅读科学论文时,最重要的一点就是要时刻警惕“单一研究综合症”。质量低劣或结论错误的论文偶尔也会发表(有时并非作者的过错 )。因此,你必须始终关注整体文献,而不是仅仅关注一两篇论文,而荟萃分析和综述正是为了解决这个问题。例如,假设有 19 篇论文指出 X 不会导致心脏病,而只有一篇论文指出 X 会导致心脏病。人们很容易只关注这一篇论文,但综述会将这一篇论文置于更广泛的背景下,与其他所有持相反观点的研究进行比较,从而纠正这一错误;而荟萃分析则会通过对整个数据集(所有 20 篇论文的合并数据)进行单一分析来解决这个问题。
重要的是,输入垃圾数据,输出结果也必然是垃圾数据。这类论文应该始终列出其纳入和排除标准,您应该仔细阅读这些标准。例如,对横断面分析进行系统评价的效力并不高,很容易被几项随机对照试验所超越。相反,对随机对照试验进行荟萃分析的效力则非常高。因此,这类论文的设计往往旨在排除低质量研究,而专注于高质量研究(样本量也可能是纳入标准之一)。然而,这些标准可能会被操纵,使其只纳入符合研究者预设观念的论文,因此您应该对此保持警惕。
最后,即使纳入标准看似合理且公正,你仍然应该查看那些被排除在外的论文。例如,假设你找到一篇荟萃分析/综述,它只纳入了检验 X 的随机对照试验(这是一个合理的标准),但符合条件的论文只有五篇,而且它们的样本量都很小。与此同时,还有几十篇关于 X 的病例对照研究和队列研究,它们的样本量很大,并且与该荟萃分析/综述的结果相悖。在这种情况下,我会非常谨慎地对待这篇荟萃分析/综述。
样本量的重要性
正如您可能已经注意到的,这种证据层级划分只是一般指导原则,而非硬性规定,而且存在例外情况。其中最大的例外是样本量。样本量是本次讨论中的关键因素,因为过小的样本量会削弱原本稳健的设计的效力,而过大的样本量则能显著提升原本薄弱的设计的效力。
例如,假设有一项荟萃分析纳入了 10 项随机对照试验,研究 X 的效果,而这 10 项研究中每项仅纳入了 100 名受试者(因此总样本量为 1000)。之后,有人发表了一项样本量为 10000 人的随机对照试验,该试验的结果与荟萃分析的结果相悖。在这种情况下,我会更相信这项样本量更大的研究,而不是荟萃分析。说实话,即使这项研究是一项队列研究或病例对照研究,我可能也会更相信它的结果,而不是荟萃分析的结果,因为如此大的样本量应该能赋予它极高的统计功效;而荟萃分析的样本量相对较小,统计功效则相当低。
然而,遗憾的是,关于何时样本量可以凌驾于研究层级之上,目前并没有明确的指导原则。低层级的研究通常无法通过增加样本量来挽救(例如,我很难想象在什么情况下,样本量能让一项动物实验或体外试验胜过一项随机对照试验,横断面分析更是如此),但对于更严谨的研究设计,情况就变得相当复杂了。例如,假设我们有一个样本量为 10,000 的队列研究和一个样本量为 7,000 的随机对照试验。我们应该相信哪一个呢?说实话,我也不知道。如果这两个研究都执行得当,并且都得出了非常明确的结果,那么在没有其他证据的情况下,我很难判断哪一个是正确的。
这让我回到了我的一个核心观点:你必须审视所有研究,而不仅仅是一两篇论文。单个研究存在缺陷的概率相当高,但大量研究存在缺陷的概率要低得多。在某些情况下,这意味着你目前还无法得出结论,这很正常。我们从事科学研究的根本原因就在于我们还有很多未知领域,有时需要多年积累足够的证据,才能透过统计噪声,发现核心趋势。所以,说“我们目前还不知道答案,但我们正在寻找答案”完全没有错。
结论
我已尝试向您概述一些常见的科学研究类型,以及它们的可靠性。阅读科学论文时,您应始终牢记这一点。但我再次强调,这种层级划分仅供参考,您必须仔细审阅论文本身,确保其研究方法正确无误。审阅时,请务必查看样本量,并确认其是否具备足够的统计效力来检测各组之间的显著差异。或许最重要的是,务必查看所有证据,而不仅仅是一两项研究。对于许多反科学和伪科学话题,例如顺势疗法、疫苗和转基因生物的所谓危害等等,您或许能找到支持它们的论文,但这些论文通常样本量小,设计薄弱,而许多样本量更大、设计更严谨的研究却得出了相反的结论。这说明那些小样本研究仅仅是统计噪声,您应该依赖那些样本量大、设计严谨的研究。
推荐阅读:
- Evans. 2002. 证据等级:评估医疗保健干预措施的证据排序框架 。临床护理杂志 77-84。
- Lewallen 和 Courtright. 1998. 实践中的流行病学:病例对照研究 。社区眼健康 11: 57-58。
- Mann. 2003. 观察性研究方法。研究设计 II:队列研究、横断面研究和病例对照研究 。急诊医学杂志 20:54-60。
- Silva(编). 1999. 癌症流行病学:原理与方法 . 世界卫生组织:国际癌症研究机构。
(这本书中有几章非常精彩且易于阅读,专门讲解研究设计。您也可以通过国际癌症研究机构(IARC)的网站访问各个章节。) - Song 和 Chung. 2010. 观察性研究:队列研究和病例对照研究 。整形与重建外科杂志 126:2234-2242。
Hits: 4
