这里还是上一页的表格,预测了许多比较的结果。唯一不同的是,我把 "统计意义上的显著性"改成了 "发现",因为错误发现率方法更常用 "发现"一词。
发现 |
"不是发现 |
总计 |
|
无差异。 零假设为真 |
A |
B |
A+B |
差异确实存在 |
C |
D |
C+D |
总计 |
A+C |
B+D |
A+B+C+D |
最上面一行代表的是零假设为真--治疗确实无效--的比较结果。然而,有些比较会错误地得出一个足够小的 P 值,因此该比较被视为 "发现"。
第二行显示的是确实存在差异的比较结果。即便如此,你也不会在每次实验中都得到一个小到足以将该发现称为 "发现"的 P 值。
A、B、C 和 D 代表比较的次数,因此 A+B+C+D 的总和等于你正在进行的比较的总次数。
当然,你只能在理论上制作这个表格。如果你收集了实际数据,你永远不知道零假设是否成立,所以无法将结果分配到第 1 行或第 2 行。
统计学显著性和多重比较的通常方法是提出问题:
如果零假设为真,得到 "统计学显著"结果的几率有多大?
错误发现率(FDR)回答了一个不同的问题:
如果比较是 "发现",那么零假设为真的几率有多大?
在上表中,错误发现率是 A/(A+C) 的比率。
在处理多重比较时,您可能希望设定一个 FDR 值(通常称为 Q),然后在决定哪些比较是 "发现",哪些不是时使用该值,目的是使实际错误发现率不高于 Q。
如果只做单项比较,不定义先验几率和使用贝叶斯推理就无法做到这一点。但如果你有很多比较,简单的方法就能让你近似控制 FDR。 您可以设置所需的 Q 值,FDR 方法将决定每个 P 值是否小到足以被认定为 "发现"。 如果将 Q 值设为 10%,则预计大约 90%的发现(从长远来看)会真正反映实际差异,而假阳性不会超过 10%。换句话说,您期望 A/(A+C) 等于 10%(您设定的 Q 值)。
有两种方法来考虑错误发现率。
•您输入一个 Q 值(注意大写字母,即期望的错误发现率),然后程序会根据该定义告诉您哪些比较是发现,哪些不是。在 Prism 中,您输入的 Q 值是一个百分比。
•对于每次比较,程序都会计算出一个 Q 值(注意小写)。该值也称为调整后的 P 值。考虑该值的方法如下。如果您将 Q 值设置为该值,那么您现在看到的对比结果将处于发现与否的边缘。Prism 将 Q 值报告为十进制分数。