Um alle in diesem Kapitel verwendeten Pakete zu installieren und zu laden, kann man folgenden Code ausführen:

for (pkg in c("tidyverse", "emmeans", "multcomp", "multcompView")) {
  if (!require(pkg, character.only = TRUE)) install.packages(pkg)
}

library(tidyverse)
library(emmeans)
library(multcomp)
library(multcompView)

Nachdem man ein lineares Modell gefittet und eine ANOVA gerechnet hat, ist der typische nächste Schritt die Frage, welche Gruppen sich tatsächlich voneinander unterscheiden. Das führt zu mehreren paarweisen Vergleichen, und sobald mehr als ein einziger Vergleich angestellt wird, beginnt die Wahrscheinlichkeit zu wachsen, allein durch Zufall einen “signifikanten” Unterschied zu finden. Dieses Kapitel erklärt, warum das ein Problem ist, welche Korrekturmethoden es gibt und wie man sie über das Paket emmeans einsetzt.

Das zugrunde liegende Problem

Immer wenn mehrere Hypothesen gleichzeitig getestet werden, wächst die Chance auf mindestens ein falsch positives Ergebnis mit der Anzahl der Tests. Wird ein einzelner Test auf dem 5%-Niveau durchgeführt und ist die Nullhypothese wahr, beträgt die Wahrscheinlichkeit einer fälschlichen Ablehnung 5%. Werden 10 unabhängige Tests auf dem 5%-Niveau unter wahren Nullhypothesen durchgeführt, liegt die Wahrscheinlichkeit für mindestens eine fälschliche Ablehnung bereits bei etwa 40%. Bei 20 Tests übersteigt sie 64%. Das ist das Problem der multiplen Vergleiche.

Kurze Erinnerung: Fehler 1. Art und Fehler 2. Art

Ein Fehler 1. Art ($\alpha$) tritt auf, wenn eine wahre Nullhypothese fälschlicherweise abgelehnt wird (ein falsch positives Ergebnis). Ein Fehler 2. Art ($\beta$) tritt auf, wenn eine falsche Nullhypothese nicht abgelehnt wird (ein falsch negatives Ergebnis). Wenn man sagt, ein Test werde “auf dem 5%-Niveau durchgeführt”, bedeutet das, dass die Fehlerrate 1. Art für diesen einen Test auf 5% kontrolliert wird. Multiplizitätskorrekturen erweitern diese Idee der Fehlerkontrolle von einem einzelnen Vergleich auf eine ganze Familie von Vergleichen.

Nullhypothese (H₀): Es wird nicht regnen · Alternative (H₁): Es wird regnen

Realität →

H₀ ist falsch
(es regnet)

H₀ ist wahr
(kein Regen)

Testergebnis ↓

H₀ ablehnen

H₀ nicht
ablehnen

Fehler 1. Art und Fehler 2. Art veranschaulicht an einem Wettervorhersage-Beispiel

Richtig positiv (1−α)

Fehler 1. Art (α)

Fehler 2. Art (β)

Richtig negativ (1−β)

Die Abbildung oben überträgt diese Definitionen in einen vertrauten Kontext: eine Wettervorhersage, die als “Test” dafür dient, ob es regnen wird. Die Nullhypothese ist der Standardzustand (kein Regen, kein Regenschirm nötig), und sie abzulehnen bedeutet, aktiv zu werden. Ein Fehler 1. Art entspricht dem Mitnehmen eines Regenschirms an einem sonnigen Tag - leicht ärgerlich, aber harmlos. Ein Fehler 2. Art entspricht dem Zuhauselassen des Regenschirms und dem anschließenden Durchnässtwerden - ein deutlich kostspieligerer Fehler. Diese Asymmetrie ist eine nützliche Intuition für spätere Abschnitte, in denen die Kosten falsch positiver gegenüber falsch negativen Ergebnissen die Wahl der Korrekturmethode bestimmen.

In der Literatur tauchen durchgängig zwei verschiedene Konzepte der Fehlerkontrolle auf:

Familienweise Fehlerrate (FWER): die Wahrscheinlichkeit, mindestens einen Fehler 1. Art unter allen Vergleichen der Familie zu begehen. Methoden wie Tukey, Dunnett, Bonferroni, Holm, Sidak und Scheffé kontrollieren die FWER.
False Discovery Rate (FDR): der erwartete Anteil falsch positiver Ergebnisse unter allen abgelehnten Hypothesen. Dies ist ein weniger striktes Kriterium, das von Benjamini und Hochberg (1995) eingeführt wurde und besonders dann beliebt ist, wenn viele Vergleiche angestellt werden (z.B. in der Genomik).

Welche der beiden man kontrolliert, hängt von den Kosten eines falsch positiven Ergebnisses ab. In einem konfirmatorischen Feldversuch mit einer Handvoll Behandlungen ist die FWER-Kontrolle über Tukey oder Dunnett der Standard. In einem Screening-Kontext mit Hunderten von Vergleichen ist die FDR oft angemessener, weil eine strikte FWER-Kontrolle nahezu keine Power übrig ließe.

Ein durchgehendes Beispiel

In diesem gesamten Kapitel verwenden wir den integrierten PlantGrowth-Datensatz, der das getrocknete Pflanzengewicht unter drei Bedingungen erfasst: eine Kontrollgruppe (ctrl) und zwei Behandlungen (trt1, trt2).

mod <- lm(weight ~ group, data = PlantGrowth)
anova(mod)

Analysis of Variance Table

Response: weight
          Df  Sum Sq Mean Sq F value  Pr(>F)  
group      2  3.7663  1.8832  4.8461 0.01591 *
Residuals 27 10.4921  0.3886                  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Die ANOVA zeigt einen signifikanten Effekt von group, daher ist es naheliegend zu fragen, welche Gruppen sich unterscheiden. Alle paarweisen Vergleiche lassen sich mit emmeans ermitteln:

emm <- emmeans(mod, specs = ~ group)
emm

 group emmean    SE df lower.CL upper.CL
 ctrl    5.03 0.197 27     4.63     5.44
 trt1    4.66 0.197 27     4.26     5.07
 trt2    5.53 0.197 27     5.12     5.93

Confidence level used: 0.95

pairs(emm, adjust = "none")

 contrast    estimate    SE df t.ratio p.value
 ctrl - trt1    0.371 0.279 27   1.331  0.1944
 ctrl - trt2   -0.494 0.279 27  -1.772  0.0877
 trt1 - trt2   -0.865 0.279 27  -3.103  0.0045

Mit adjust = "none" gibt emmeans unkorrigierte p-Werte aus. Dies sind im Wesentlichen mehrere t-Tests und berücksichtigen nicht, dass drei Vergleiche auf einmal angestellt werden. Dies wird manchmal als Fisher-LSD-Ansatz (Least Significant Difference) bezeichnet und ist generell nicht zu empfehlen, es sei denn, ein übergeordneter F-Test hat die Gesamtsignifikanz bereits etabliert und es sind nur sehr wenige Vergleiche geplant.

Methoden im Überblick

Die folgende Tabelle fasst die gängigsten Korrekturmethoden zusammen: wann man sie einsetzt, was sie kontrollieren und wie man sie in emmeans anfordert. Jede aufgeführte Methode (außer “none”) ist über das Argument adjust von pairs(), contrast() oder summary() auf einem emmGrid-Objekt verfügbar.

Methode	Wann einsetzen	Kontrolliert	Konservativität	`emmeans`-Aufruf
None (Fisher LSD)	Nur wenn gerechtfertigt; wenige geplante Vergleiche nach einem signifikanten F-Test	Nichts (nur Fehler pro Vergleich)	Am liberalsten	`adjust = "none"`
Tukey HSD	Alle paarweisen Vergleiche zwischen Gruppenmittelwerten	FWER	Moderat, optimal für alle Paare	`adjust = "tukey"`
Dunnett	Vergleich mehrerer Behandlungen gegen eine einzelne Kontrolle	FWER	Weniger konservativ als Tukey in diesem Fall	`adjust = "dunnett"` (mit `trt.vs.ctrl`)
Bonferroni	Beliebige Menge vorab festgelegter Vergleiche, einfach zu berichten	FWER	Sehr konservativ, besonders bei vielen Tests	`adjust = "bonferroni"`
Holm	Gleiche Situationen wie Bonferroni, strikt mächtiger	FWER	Weniger konservativ als Bonferroni	`adjust = "holm"`
Sidak	Unabhängige Tests, setzt Unabhängigkeit voraus	FWER	Etwas weniger konservativ als Bonferroni	`adjust = "sidak"`
Scheffé	Beliebige (auch ungeplante, datengetriebene) lineare Kontraste	FWER	Am konservativsten; sehr allgemein	`adjust = "scheffe"`
Benjamini-Hochberg (FDR)	Große Anzahl von Vergleichen, Screening-Kontext	FDR	Deutlich weniger konservativ als FWER-Methoden	`adjust = "fdr"` (oder `"BH"`)

Zwei strukturelle Unterscheidungen sollte man im Hinterkopf behalten:

Simultan vs. sequenziell (schrittweise): Bonferroni und Sidak wenden auf jeden p-Wert dieselbe Korrektur auf einmal an (simultan). Holm hingegen sortiert die p-Werte vom kleinsten zum größten und wendet nacheinander zunehmend schwächere Korrekturen an. Holm dominiert Bonferroni gleichmäßig, das heißt, es ist stets mindestens ebenso mächtig und kontrolliert dabei dieselbe FWER.
Spezialisiert vs. allgemein: Tukey ist auf Alle-Paare-Vergleiche und Dunnett auf Viele-gegen-einen-Vergleiche zugeschnitten. Beide nutzen die Korrelationsstruktur zwischen den Kontrasten aus und sind daher in ihrem vorgesehenen Einsatzbereich mächtiger als generische Methoden wie Bonferroni.

Tukey gegenüber Dunnett

Tukey HSD und Dunnetts Test sind beide gut kalibrierte FWER-Methoden, beantworten aber unterschiedliche Fragen. Die falsche von beiden zu verwenden, verschenkt Power.

Tukey ist die richtige Wahl, wenn die Forschungsfrage lautet “welche Gruppen unterscheiden sich von welchen?” und alle paarweisen Kontraste von Interesse sind. Für $k$ Gruppen sind dies $k(k-1)/2$ Kontraste.
Dunnett ist die richtige Wahl, wenn die Forschungsfrage lautet “welche Behandlungen unterscheiden sich von der Kontrolle?” und nur die $k-1$ Behandlung-gegen-Kontrolle-Kontraste von Interesse sind. Dunnett nutzt explizit die Tatsache aus, dass alle Kontraste die Kontrolle als Referenz teilen, was es mächtiger macht als Tukey, wenn nur Viele-gegen-einen-Vergleiche benötigt werden.

Dunnetts Test wird in der Praxis zu selten genutzt. Viele Anwender greifen standardmäßig zu Tukey, selbst wenn nur Kontrollvergleiche relevant sind, und verlieren so unnötig statistische Power.

# All pairwise comparisons with Tukey adjustment
pairs(emm, adjust = "tukey")

 contrast    estimate    SE df t.ratio p.value
 ctrl - trt1    0.371 0.279 27   1.331  0.3909
 ctrl - trt2   -0.494 0.279 27  -1.772  0.1980
 trt1 - trt2   -0.865 0.279 27  -3.103  0.0120

P value adjustment: tukey method for comparing a family of 3 estimates

# Treatments vs. control (ctrl as reference) with Dunnett adjustment
contrast(emm, method = "trt.vs.ctrl", ref = "ctrl", adjust = "dunnett")

 contrast    estimate    SE df t.ratio p.value
 trt1 - ctrl   -0.371 0.279 27  -1.331  0.3296
 trt2 - ctrl    0.494 0.279 27   1.772  0.1582

P value adjustment: dunnettx method for 2 tests

Man beachte, wie method = "trt.vs.ctrl" die Menge der Kontraste auf “jede Behandlung gegen die Kontrolle” einschränkt - genau die Familie, für die Dunnetts Test konzipiert ist.

Bonferroni, Holm, Sidak

Diese drei Methoden treffen keine Annahmen über die Struktur der Vergleiche und können daher auf jede beliebige Menge von Kontrasten angewendet werden - geplant oder ungeplant.

pairs(emm, adjust = "bonferroni")

 contrast    estimate    SE df t.ratio p.value
 ctrl - trt1    0.371 0.279 27   1.331  0.5832
 ctrl - trt2   -0.494 0.279 27  -1.772  0.2630
 trt1 - trt2   -0.865 0.279 27  -3.103  0.0134

P value adjustment: bonferroni method for 3 tests

pairs(emm, adjust = "holm")

 contrast    estimate    SE df t.ratio p.value
 ctrl - trt1    0.371 0.279 27   1.331  0.1944
 ctrl - trt2   -0.494 0.279 27  -1.772  0.1754
 trt1 - trt2   -0.865 0.279 27  -3.103  0.0134

P value adjustment: holm method for 3 tests

pairs(emm, adjust = "sidak")

 contrast    estimate    SE df t.ratio p.value
 ctrl - trt1    0.371 0.279 27   1.331  0.4771
 ctrl - trt2   -0.494 0.279 27  -1.772  0.2407
 trt1 - trt2   -0.865 0.279 27  -3.103  0.0133

P value adjustment: sidak method for 3 tests

Für dieses kleine Beispiel liefern die drei Methoden ähnliche Ergebnisse, bei größeren Vergleichsfamilien werden die Unterschiede jedoch deutlicher. Holm sollte generell gegenüber Bonferroni bevorzugt werden, da es die FWER auf demselben Niveau kontrolliert und dabei mächtiger ist. Sidak ist etwas weniger konservativ als Bonferroni, setzt aber Unabhängigkeit der Teststatistiken voraus, was bei ANOVA-artigen Analysen selten exakt zutrifft.

False Discovery Rate

Wenn viele Vergleiche angestellt werden - etwa bei genomischen Screens, Hochdurchsatz-Phänotypisierung oder großen Mehrumweltversuchen - wird eine strikte FWER-Kontrolle so konservativ, dass echte Effekte nicht mehr nachgewiesen werden können. Der FDR-Ansatz von Benjamini und Hochberg (1995) lockert das Kriterium: Anstatt die Wahrscheinlichkeit irgendeiner fälschlichen Ablehnung zu kontrollieren, kontrolliert er den erwarteten Anteil fälschlicher Ablehnungen unter den abgelehnten Hypothesen.

pairs(emm, adjust = "fdr")

 contrast    estimate    SE df t.ratio p.value
 ctrl - trt1    0.371 0.279 27   1.331  0.1944
 ctrl - trt2   -0.494 0.279 27  -1.772  0.1315
 trt1 - trt2   -0.865 0.279 27  -3.103  0.0134

P value adjustment: fdr method for 3 tests

Die FDR-Korrektur ist weniger konservativ als jede FWER-Methode und eignet sich besonders gut für explorative oder Screening-Analysen. Sie sollte nicht als Schlupfloch verwendet werden, um in einer konfirmatorischen Studie mit einer kleinen, vorab festgelegten Vergleichsfamilie mehr “signifikante” Ergebnisse zu erzielen; dort ist eine FWER-Methode die richtige Wahl.

Scheffé

Scheffés Methode ist die allgemeinste - und folglich die konservativste - der FWER-Verfahren. Sie schützt gegen jeden möglichen linearen Kontrast zwischen den Gruppenmittelwerten, einschließlich Kontrasten, die erst nach Betrachtung der Daten formuliert wurden. Für eine Menge vorab festgelegter paarweiser Vergleiche wird sie fast immer von Tukey oder Dunnett geschlagen.

pairs(emm, adjust = "scheffe")

 contrast    estimate    SE df t.ratio p.value
 ctrl - trt1    0.371 0.279 27   1.331  0.4241
 ctrl - trt2   -0.494 0.279 27  -1.772  0.2265
 trt1 - trt2   -0.865 0.279 27  -3.103  0.0163

P value adjustment: scheffe method with rank 2

Scheffé ist am nützlichsten, wenn post-hoc formulierte, datengetriebene Kontraste getestet werden sollen (z.B. “der Mittelwert der Gruppen A und B gegen C”) ohne jegliche vorherige Festlegung.

Eine Methode wählen, bevor man die Daten betrachtet

Ein entscheidender methodischer Punkt: Die Korrekturmethode sollte gewählt werden, bevor man die Ergebnisse betrachtet, nicht danach. Mehrere adjust =-Optionen auszuprobieren und diejenige zu berichten, die die meisten Vergleiche “signifikant” macht, ist eine Form von p-Value-Hacking, die die effektive Fehlerrate 1. Art weit über die nominalen 5% hinaus aufbläht. Die passende Methode ergibt sich aus der Forschungsfrage und der Vergleichsfamilie:

Alle paarweisen Vergleiche geplant -> Tukey.
Vergleiche gegen eine Kontrolle -> Dunnett.
Kleine vorab festgelegte Menge beliebiger Kontraste -> Bonferroni oder Holm.
Sehr viele Vergleiche, Screening-Kontext -> FDR.
Tatsächlich post-hoc formulierte, ungeplante Kontraste -> Scheffé.

Eine transparente Berichterstattung ist ebenso wichtig: Die verwendete Methode, die Vergleichsfamilie, auf die sie angewendet wurde, und ob die Analyse vorab festgelegt oder explorativ war, sollten allesamt klar angegeben werden.

Querverweis: Compact Letter Display

Eine gängige Möglichkeit, die Ergebnisse multipler Vergleiche zu visualisieren, ist das Compact Letter Display (CLD), bei dem Gruppen, die sich einen Buchstaben teilen, sich nicht signifikant unterscheiden. Ein eigenes Kapitel behandelt die Konstruktion und Interpretation von CLDs sowie ihre gut dokumentierten Fallstricke - siehe den folgenden Appendix A5 zu Compact Letter Displays.

Weiterführende Ressourcen

Bretz, Hothorn, und Westfall (2011) “Multiple Comparisons Using R” - die Standardreferenz, die sowohl Theorie als auch Umsetzung über das Paket multcomp abdeckt.
Hothorn, Bretz, und Westfall (2008) “Simultaneous Inference in General Parametric Models” - die methodische Arbeit hinter multcomp::glht().
emmeans-Vignette “Comparisons and contrasts” - eine praktische Durchführung aller in emmeans verfügbaren Korrekturoptionen.
Benjamini und Hochberg (1995) “Controlling the False Discovery Rate” - die ursprüngliche FDR-Arbeit.
Lee S, Lee DK. What is the proper way to apply the multiple comparison test? Korean J Anesthesiol. 2018 Oct;71(5):353-360. doi: 10.4097/kja.d.18.00242

Wichtigste Erkenntnisse

Multiple Vergleiche blähen die Fehlerrate 1. Art auf. Korrekturen sind nötig, sobald mehr als eine Handvoll Vergleiche angestellt werden.
FWER vs. FDR ist die erste Entscheidung. FWER ist Standard für konfirmatorische Analysen; FDR ist für Screening angemessen.
Tukey für alle Paare, Dunnett für Vergleiche gegen die Kontrolle. Dunnett zu verwenden, wenn nur Kontrollvergleiche relevant sind, spart erhebliche Power.
Holm dominiert Bonferroni und sollte für beliebige vorab festgelegte Vergleichsfamilien bevorzugt werden.
Scheffé ist nur für tatsächlich ungeplante Kontraste. Für übliche paarweise Vergleiche ist es zu konservativ.
Die Methode wählen, bevor man die Ergebnisse betrachtet. Die Methode post-hoc so zu wählen, dass möglichst viele “signifikante” Befunde herauskommen, ist p-Value-Hacking.
Transparent berichten, welche Methode verwendet wurde und auf welche Vergleichsfamilie sie angewendet wurde.

Literatur

Benjamini, Yoav, und Yosef Hochberg. 1995. „Controlling the false discovery rate: a practical and powerful approach to multiple testing“. Journal of the Royal Statistical Society: Series B (Methodological) 57 (1): 289–300. https://doi.org/10.1111/j.2517-6161.1995.tb02031.x.

Bretz, Frank, Torsten Hothorn, und Peter Westfall. 2011. Multiple Comparisons Using R. Boca Raton: Chapman; Hall/CRC. https://doi.org/10.1201/9781420010909.

Hothorn, Torsten, Frank Bretz, und Peter Westfall. 2008. „Simultaneous inference in general parametric models“. Biometrical Journal 50 (3): 346–63. https://doi.org/10.1002/bimj.200810425.

Zitat

Mit BibTeX zitieren:

@online{schmidt2026,
  author = {{Dr. Paul Schmidt}},
  title = {A4. Multiplizitätskorrektur},
  date = {2026-06-08},
  url = {https://biomathcontent.netlify.app/de/content/lin_mod_exp/a4_multiplicityadj.html},
  langid = {de}
}

Bitte zitieren Sie diese Arbeit als:

Dr. Paul Schmidt. 2026. “A4. Multiplizitätskorrektur.” June 8, 2026. https://biomathcontent.netlify.app/de/content/lin_mod_exp/a4_multiplicityadj.html.

--- title: "A4. Multiplizitätskorrektur" subtitle: "Fehlerraten bei multiplen Vergleichen verstehen und kontrollieren" citation: true --- Um alle in diesem Kapitel verwendeten Pakete zu installieren und zu laden, kann man folgenden Code ausführen: ```{r} #| label: multadj-packages #| output: false #| messages: false #| warning: false #| results: 'hide' for (pkg in c("tidyverse", "emmeans", "multcomp", "multcompView")) { if (!require(pkg, character.only = TRUE)) install.packages(pkg) } library(tidyverse) library(emmeans) library(multcomp) library(multcompView) ``` Nachdem man ein lineares Modell gefittet und eine ANOVA gerechnet hat, ist der typische nächste Schritt die Frage, **welche Gruppen sich tatsächlich voneinander unterscheiden**. Das führt zu mehreren paarweisen Vergleichen, und sobald mehr als ein einziger Vergleich angestellt wird, beginnt die Wahrscheinlichkeit zu wachsen, allein durch Zufall einen "signifikanten" Unterschied zu finden. Dieses Kapitel erklärt, warum das ein Problem ist, welche Korrekturmethoden es gibt und wie man sie über das Paket `emmeans` einsetzt. # Das zugrunde liegende Problem Immer wenn mehrere Hypothesen gleichzeitig getestet werden, wächst die Chance auf mindestens ein falsch positives Ergebnis mit der Anzahl der Tests. Wird ein einzelner Test auf dem 5%-Niveau durchgeführt und ist die Nullhypothese wahr, beträgt die Wahrscheinlichkeit einer fälschlichen Ablehnung 5%. Werden 10 unabhängige Tests auf dem 5%-Niveau unter wahren Nullhypothesen durchgeführt, liegt die Wahrscheinlichkeit für mindestens eine fälschliche Ablehnung bereits bei etwa 40%. Bei 20 Tests übersteigt sie 64%. Das ist das **Problem der multiplen Vergleiche**. ::: {.callout-note collapse="true"} ## Kurze Erinnerung: Fehler 1. Art und Fehler 2. Art Ein Fehler 1. Art ($\alpha$) tritt auf, wenn eine wahre Nullhypothese fälschlicherweise abgelehnt wird (ein falsch positives Ergebnis). Ein Fehler 2. Art ($\beta$) tritt auf, wenn eine falsche Nullhypothese nicht abgelehnt wird (ein falsch negatives Ergebnis). Wenn man sagt, ein Test werde "auf dem 5%-Niveau durchgeführt", bedeutet das, dass die Fehlerrate 1. Art für diesen einen Test auf 5% kontrolliert wird. Multiplizitätskorrekturen erweitern diese Idee der Fehlerkontrolle von einem einzelnen Vergleich auf eine ganze Familie von Vergleichen. ::: ```{=html} <style> .ef-wrap { max-width: 720px; margin: 1.5rem auto; font-family: Arial, sans-serif; } .ef-hyp { background: #f0efeb; padding: 0.6rem 0.9rem; border-radius: 6px; font-size: 0.95rem; margin-bottom: 0.75rem; text-align: center; } .ef-grid { display: grid; grid-template-columns: 130px 1fr 1fr; grid-template-rows: auto auto 1fr 1fr; column-gap: 0.4rem; row-gap: 0.25rem; align-items: center; } .ef-axis-reality, .ef-axis-test { font-style: italic; color: #2a8c8c; font-size: 0.9rem; } .ef-axis-reality { grid-column: 2 / 4; grid-row: 1; text-align: center; } .ef-axis-test { grid-column: 1; grid-row: 1; text-align: right; padding-right: 0.5rem; align-self: end; } .ef-colhead { font-weight: 600; text-align: center; font-size: 0.95rem; line-height: 1.2; } .ef-colhead span { font-weight: 400; font-size: 0.8rem; color: #555; } .ef-col1 { grid-column: 2; grid-row: 2; } .ef-col2 { grid-column: 3; grid-row: 2; } .ef-rowhead { font-weight: 600; text-align: right; padding-right: 0.5rem; font-size: 0.95rem; line-height: 1.2; } .ef-row1 { grid-column: 1; grid-row: 3; } .ef-row2 { grid-column: 1; grid-row: 4; } .ef-imgbox { grid-column: 2 / 4; grid-row: 3 / 5; position: relative; border-radius: 6px; overflow: hidden; } .ef-imgbox img { width: 100%; display: block; } .ef-quad { position: absolute; background: rgba(255, 255, 255, 0.96); padding: 3px 10px; border-radius: 4px; font-weight: 600; font-size: 0.85rem; white-space: nowrap; border: 1px solid rgba(0,0,0,0.15); box-shadow: 0 1px 3px rgba(0,0,0,0.15); } .ef-q1 { top: 47%; left: 25%; transform: translate(-50%, -120%); } .ef-q2 { top: 47%; left: 75%; transform: translate(-50%, -120%); } .ef-q3 { top: 97%; left: 25%; transform: translate(-50%, -120%); } .ef-q4 { top: 97%; left: 75%; transform: translate(-50%, -120%); } @media (max-width: 600px) { .ef-grid { grid-template-columns: 80px 1fr 1fr; column-gap: 0.25rem; } .ef-rowhead, .ef-colhead { font-size: 0.8rem; } .ef-axis-reality, .ef-axis-test { font-size: 0.75rem; } .ef-quad { font-size: 0.65rem; padding: 2px 5px; } } </style> <div class="ef-wrap"> <div class="ef-hyp"> <strong>Nullhypothese (H<sub>0</sub>):</strong> Es wird nicht regnen  ·  <strong>Alternative (H<sub>1</sub>):</strong> Es wird regnen </div> <div class="ef-grid"> <div class="ef-axis-reality">Realität →</div> <div class="ef-colhead ef-col1">H<sub>0</sub> ist falsch<br><span>(es regnet)</span></div> <div class="ef-colhead ef-col2">H<sub>0</sub> ist wahr<br><span>(kein Regen)</span></div> <div class="ef-axis-test">Testergebnis ↓</div> <div class="ef-rowhead ef-row1">H<sub>0</sub> ablehnen</div> <div class="ef-rowhead ef-row2">H<sub>0</sub> nicht<br>ablehnen</div> <div class="ef-imgbox"> <img src="../../img/alpha_beta_errors.png" alt="Fehler 1. Art und Fehler 2. Art veranschaulicht an einem Wettervorhersage-Beispiel"/> <div class="ef-quad ef-q1">Richtig positiv (1−α)</div> <div class="ef-quad ef-q2">Fehler 1. Art (α)</div> <div class="ef-quad ef-q3">Fehler 2. Art (β)</div> <div class="ef-quad ef-q4">Richtig negativ (1−β)</div> </div> </div> </div> ``` Die Abbildung oben überträgt diese Definitionen in einen vertrauten Kontext: eine Wettervorhersage, die als "Test" dafür dient, ob es regnen wird. Die Nullhypothese ist der Standardzustand (kein Regen, kein Regenschirm nötig), und sie abzulehnen bedeutet, aktiv zu werden. Ein **Fehler 1. Art** entspricht dem Mitnehmen eines Regenschirms an einem sonnigen Tag - leicht ärgerlich, aber harmlos. Ein **Fehler 2. Art** entspricht dem Zuhauselassen des Regenschirms und dem anschließenden Durchnässtwerden - ein deutlich kostspieligerer Fehler. Diese Asymmetrie ist eine nützliche Intuition für spätere Abschnitte, in denen die Kosten falsch positiver gegenüber falsch negativen Ergebnissen die Wahl der Korrekturmethode bestimmen. In der Literatur tauchen durchgängig zwei verschiedene Konzepte der Fehlerkontrolle auf: - **Familienweise Fehlerrate (FWER):** die Wahrscheinlichkeit, *mindestens einen* Fehler 1. Art unter allen Vergleichen der Familie zu begehen. Methoden wie Tukey, Dunnett, Bonferroni, Holm, Sidak und Scheffé kontrollieren die FWER. - **False Discovery Rate (FDR):** der erwartete *Anteil* falsch positiver Ergebnisse unter allen abgelehnten Hypothesen. Dies ist ein weniger striktes Kriterium, das von @benjamini_hochberg_1995 eingeführt wurde und besonders dann beliebt ist, wenn viele Vergleiche angestellt werden (z.B. in der Genomik). Welche der beiden man kontrolliert, hängt von den Kosten eines falsch positiven Ergebnisses ab. In einem konfirmatorischen Feldversuch mit einer Handvoll Behandlungen ist die FWER-Kontrolle über Tukey oder Dunnett der Standard. In einem Screening-Kontext mit Hunderten von Vergleichen ist die FDR oft angemessener, weil eine strikte FWER-Kontrolle nahezu keine Power übrig ließe. # Ein durchgehendes Beispiel In diesem gesamten Kapitel verwenden wir den integrierten `PlantGrowth`-Datensatz, der das getrocknete Pflanzengewicht unter drei Bedingungen erfasst: eine Kontrollgruppe (`ctrl`) und zwei Behandlungen (`trt1`, `trt2`). ```{r} #| label: multadj-model mod <- lm(weight ~ group, data = PlantGrowth) anova(mod) ``` Die ANOVA zeigt einen signifikanten Effekt von `group`, daher ist es naheliegend zu fragen, *welche* Gruppen sich unterscheiden. Alle paarweisen Vergleiche lassen sich mit `emmeans` ermitteln: ```{r} #| label: multadj-emmeans emm <- emmeans(mod, specs = ~ group) emm ``` ```{r} #| label: multadj-pairs-none pairs(emm, adjust = "none") ``` Mit `adjust = "none"` gibt `emmeans` unkorrigierte p-Werte aus. Dies sind im Wesentlichen mehrere t-Tests und berücksichtigen **nicht**, dass drei Vergleiche auf einmal angestellt werden. Dies wird manchmal als Fisher-LSD-Ansatz (Least Significant Difference) bezeichnet und ist generell nicht zu empfehlen, es sei denn, ein übergeordneter F-Test hat die Gesamtsignifikanz bereits etabliert und es sind nur sehr wenige Vergleiche geplant. # Methoden im Überblick Die folgende Tabelle fasst die gängigsten Korrekturmethoden zusammen: wann man sie einsetzt, was sie kontrollieren und wie man sie in `emmeans` anfordert. Jede aufgeführte Methode (außer "none") ist über das Argument `adjust` von `pairs()`, `contrast()` oder `summary()` auf einem `emmGrid`-Objekt verfügbar. | Methode | Wann einsetzen | Kontrolliert | Konservativität | `emmeans`-Aufruf | |---|---|---|---|---| | **None (Fisher LSD)** | Nur wenn gerechtfertigt; wenige geplante Vergleiche nach einem signifikanten F-Test | Nichts (nur Fehler pro Vergleich) | Am liberalsten | `adjust = "none"` | | **Tukey HSD** | Alle paarweisen Vergleiche zwischen Gruppenmittelwerten | FWER | Moderat, optimal für alle Paare | `adjust = "tukey"` | | **Dunnett** | Vergleich mehrerer Behandlungen gegen eine einzelne Kontrolle | FWER | Weniger konservativ als Tukey in diesem Fall | `adjust = "dunnett"` (mit `trt.vs.ctrl`) | | **Bonferroni** | Beliebige Menge vorab festgelegter Vergleiche, einfach zu berichten | FWER | Sehr konservativ, besonders bei vielen Tests | `adjust = "bonferroni"` | | **Holm** | Gleiche Situationen wie Bonferroni, strikt mächtiger | FWER | Weniger konservativ als Bonferroni | `adjust = "holm"` | | **Sidak** | Unabhängige Tests, setzt Unabhängigkeit voraus | FWER | Etwas weniger konservativ als Bonferroni | `adjust = "sidak"` | | **Scheffé** | Beliebige (auch ungeplante, datengetriebene) lineare Kontraste | FWER | Am konservativsten; sehr allgemein | `adjust = "scheffe"` | | **Benjamini-Hochberg (FDR)** | Große Anzahl von Vergleichen, Screening-Kontext | FDR | Deutlich weniger konservativ als FWER-Methoden | `adjust = "fdr"` (oder `"BH"`) | Zwei strukturelle Unterscheidungen sollte man im Hinterkopf behalten: - **Simultan vs. sequenziell (schrittweise):** Bonferroni und Sidak wenden auf jeden p-Wert dieselbe Korrektur auf einmal an (simultan). Holm hingegen sortiert die p-Werte vom kleinsten zum größten und wendet nacheinander zunehmend schwächere Korrekturen an. Holm dominiert Bonferroni gleichmäßig, das heißt, es ist stets mindestens ebenso mächtig und kontrolliert dabei dieselbe FWER. - **Spezialisiert vs. allgemein:** Tukey ist auf Alle-Paare-Vergleiche und Dunnett auf Viele-gegen-einen-Vergleiche zugeschnitten. Beide nutzen die Korrelationsstruktur zwischen den Kontrasten aus und sind daher in ihrem vorgesehenen Einsatzbereich mächtiger als generische Methoden wie Bonferroni. # Tukey gegenüber Dunnett Tukey HSD und Dunnetts Test sind beide gut kalibrierte FWER-Methoden, beantworten aber unterschiedliche Fragen. **Die falsche von beiden zu verwenden, verschenkt Power.** - **Tukey** ist die richtige Wahl, wenn die Forschungsfrage lautet "welche Gruppen unterscheiden sich von welchen?" und alle paarweisen Kontraste von Interesse sind. Für $k$ Gruppen sind dies $k(k-1)/2$ Kontraste. - **Dunnett** ist die richtige Wahl, wenn die Forschungsfrage lautet "welche Behandlungen unterscheiden sich von der Kontrolle?" und nur die $k-1$ Behandlung-gegen-Kontrolle-Kontraste von Interesse sind. Dunnett nutzt explizit die Tatsache aus, dass alle Kontraste die Kontrolle als Referenz teilen, was es mächtiger macht als Tukey, wenn nur Viele-gegen-einen-Vergleiche benötigt werden. Dunnetts Test wird in der Praxis zu selten genutzt. Viele Anwender greifen standardmäßig zu Tukey, selbst wenn nur Kontrollvergleiche relevant sind, und verlieren so unnötig statistische Power. ```{r} #| label: multadj-tukey # All pairwise comparisons with Tukey adjustment pairs(emm, adjust = "tukey") ``` ```{r} #| label: multadj-dunnett # Treatments vs. control (ctrl as reference) with Dunnett adjustment contrast(emm, method = "trt.vs.ctrl", ref = "ctrl", adjust = "dunnett") ``` Man beachte, wie `method = "trt.vs.ctrl"` die Menge der Kontraste auf "jede Behandlung gegen die Kontrolle" einschränkt - genau die Familie, für die Dunnetts Test konzipiert ist. # Bonferroni, Holm, Sidak Diese drei Methoden treffen keine Annahmen über die Struktur der Vergleiche und können daher auf jede beliebige Menge von Kontrasten angewendet werden - geplant oder ungeplant. ```{r} #| label: multadj-bonferroni pairs(emm, adjust = "bonferroni") ``` ```{r} #| label: multadj-holm pairs(emm, adjust = "holm") ``` ```{r} #| label: multadj-sidak pairs(emm, adjust = "sidak") ``` Für dieses kleine Beispiel liefern die drei Methoden ähnliche Ergebnisse, bei größeren Vergleichsfamilien werden die Unterschiede jedoch deutlicher. Holm sollte generell gegenüber Bonferroni bevorzugt werden, da es die FWER auf demselben Niveau kontrolliert und dabei mächtiger ist. Sidak ist etwas weniger konservativ als Bonferroni, setzt aber Unabhängigkeit der Teststatistiken voraus, was bei ANOVA-artigen Analysen selten exakt zutrifft. # False Discovery Rate Wenn viele Vergleiche angestellt werden - etwa bei genomischen Screens, Hochdurchsatz-Phänotypisierung oder großen Mehrumweltversuchen - wird eine strikte FWER-Kontrolle so konservativ, dass echte Effekte nicht mehr nachgewiesen werden können. Der FDR-Ansatz von @benjamini_hochberg_1995 lockert das Kriterium: Anstatt die Wahrscheinlichkeit *irgendeiner* fälschlichen Ablehnung zu kontrollieren, kontrolliert er den erwarteten *Anteil* fälschlicher Ablehnungen unter den abgelehnten Hypothesen. ```{r} #| label: multadj-fdr pairs(emm, adjust = "fdr") ``` Die FDR-Korrektur ist weniger konservativ als jede FWER-Methode und eignet sich besonders gut für explorative oder Screening-Analysen. Sie sollte nicht als Schlupfloch verwendet werden, um in einer konfirmatorischen Studie mit einer kleinen, vorab festgelegten Vergleichsfamilie mehr "signifikante" Ergebnisse zu erzielen; dort ist eine FWER-Methode die richtige Wahl. # Scheffé Scheffés Methode ist die allgemeinste - und folglich die konservativste - der FWER-Verfahren. Sie schützt gegen *jeden* möglichen linearen Kontrast zwischen den Gruppenmittelwerten, einschließlich Kontrasten, die erst nach Betrachtung der Daten formuliert wurden. Für eine Menge vorab festgelegter paarweiser Vergleiche wird sie fast immer von Tukey oder Dunnett geschlagen. ```{r} #| label: multadj-scheffe pairs(emm, adjust = "scheffe") ``` Scheffé ist am nützlichsten, wenn post-hoc formulierte, datengetriebene Kontraste getestet werden sollen (z.B. "der Mittelwert der Gruppen A und B gegen C") ohne jegliche vorherige Festlegung. # Eine Methode wählen, bevor man die Daten betrachtet Ein entscheidender methodischer Punkt: **Die Korrekturmethode sollte gewählt werden, bevor man die Ergebnisse betrachtet, nicht danach.** Mehrere `adjust =`-Optionen auszuprobieren und diejenige zu berichten, die die meisten Vergleiche "signifikant" macht, ist eine Form von p-Value-Hacking, die die effektive Fehlerrate 1. Art weit über die nominalen 5% hinaus aufbläht. Die passende Methode ergibt sich aus der Forschungsfrage und der Vergleichsfamilie: - Alle paarweisen Vergleiche geplant -> Tukey. - Vergleiche gegen eine Kontrolle -> Dunnett. - Kleine vorab festgelegte Menge beliebiger Kontraste -> Bonferroni oder Holm. - Sehr viele Vergleiche, Screening-Kontext -> FDR. - Tatsächlich post-hoc formulierte, ungeplante Kontraste -> Scheffé. Eine transparente Berichterstattung ist ebenso wichtig: Die verwendete Methode, die Vergleichsfamilie, auf die sie angewendet wurde, und ob die Analyse vorab festgelegt oder explorativ war, sollten allesamt klar angegeben werden. # Querverweis: Compact Letter Display Eine gängige Möglichkeit, die Ergebnisse multipler Vergleiche zu visualisieren, ist das **Compact Letter Display (CLD)**, bei dem Gruppen, die sich einen Buchstaben teilen, sich nicht signifikant unterscheiden. Ein eigenes Kapitel behandelt die Konstruktion und Interpretation von CLDs sowie ihre gut dokumentierten Fallstricke - siehe den folgenden Appendix A5 zu Compact Letter Displays. ::: {.callout-tip collapse="true"} ## Weiterführende Ressourcen - @bretz_hothorn_westfall_2011 "Multiple Comparisons Using R" - die Standardreferenz, die sowohl Theorie als auch Umsetzung über das Paket `multcomp` abdeckt. - @hothorn_bretz_westfall_2008 "Simultaneous Inference in General Parametric Models" - die methodische Arbeit hinter `multcomp::glht()`. - [emmeans-Vignette "Comparisons and contrasts"](https://cran.r-project.org/web/packages/emmeans/vignettes/comparisons.html) - eine praktische Durchführung aller in `emmeans` verfügbaren Korrekturoptionen. - @benjamini_hochberg_1995 "Controlling the False Discovery Rate" - die ursprüngliche FDR-Arbeit. - Lee S, Lee DK. What is the proper way to apply the multiple comparison test? Korean J Anesthesiol. 2018 Oct;71(5):353-360. doi: [10.4097/kja.d.18.00242](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6193594/) ::: ::: {.callout-note} ## Wichtigste Erkenntnisse 1. **Multiple Vergleiche blähen die Fehlerrate 1. Art auf.** Korrekturen sind nötig, sobald mehr als eine Handvoll Vergleiche angestellt werden. 2. **FWER vs. FDR** ist die erste Entscheidung. FWER ist Standard für konfirmatorische Analysen; FDR ist für Screening angemessen. 3. **Tukey für alle Paare, Dunnett für Vergleiche gegen die Kontrolle.** Dunnett zu verwenden, wenn nur Kontrollvergleiche relevant sind, spart erhebliche Power. 4. **Holm dominiert Bonferroni** und sollte für beliebige vorab festgelegte Vergleichsfamilien bevorzugt werden. 5. **Scheffé ist nur für tatsächlich ungeplante Kontraste.** Für übliche paarweise Vergleiche ist es zu konservativ. 6. **Die Methode wählen, bevor man die Ergebnisse betrachtet.** Die Methode post-hoc so zu wählen, dass möglichst viele "signifikante" Befunde herauskommen, ist p-Value-Hacking. 7. **Transparent berichten,** welche Methode verwendet wurde und auf welche Vergleichsfamilie sie angewendet wurde. :::