Zwei weitere Wege schützen ebenfalls vor solchen (und anderen) schlechten Praktiken: Präregistrierungen und “Registered Reports”. Bei einer Präregistrierung laden Forschende ein Protokoll ihres Designs auf eine öffentlich einsehbare Präregistrierungsplattform. Dort wird es »eingeforen«, cann also nicht mehr nachträglich geändert werden. Spätere Abweichungen fallen auf und wollen gut begründet sein.

Die »Registered Reports« gehen noch eine Stufe weiter. Es handelt sich dabei um ein Format, das von immer mehr Journals angeboten wird. Forschende senden vor der Datenerhebung ihr Studiendesign ein, das Journal unterzieht es einem ersten Peer-Review, also einer Begutachtung durch Fachkolleginnen und -kollegen. Diese schlagen Änderungen vor, wenn sie das Design für ungeeignet halten, die Forschungsfrage zu beantworten. Eine weitere Peer-Review-Runde folgt, wenn die Studie durchgeführt und der Artikel geschrieben ist. Im Anschluss veröffentlicht das Journal die Studie – ganz gleich, ob sich die vorab formlierten Hypothesen bestätigt haben. Registered Reports verschieben so den Fokus von aufregenden Ergebnissen auf methodisch gut gemachte Forschung.

3. Akt: Die Auswertung

Die größte Gefahr liegt im p-Hacking. Der Wert p gibt an, ob ein Ergebnis signifikant, also statistisch gesehen bedeutsam ist. Er sagt aber nichts darüber aus, ob ein Ergebnis praktisch bedeutsam ist. Ausgangspunkt ist die Nullhypothese, die davon ausgeht, dass es in Wahrheit gar keinen Effekt gibt, zum Beispiel keinen Unterschied zwischen zwei Gruppen. Wie oft würden – unter Annahme dieser Nullhypothese – die Unterschiede größer ausfallen als in den vorliegenden Daten, wenn die Studie unendlich oft in gleicher Weise wiederholt würde? Ist die Wahrscheinlichkeit kleiner als 5 Prozent, also p kleiner als 0,05, gilt ein Ergebnis in der Regel als statistisch signifikant. Die simple Zweiteilung in signifikante und nicht signifikante Ergebnisse wird der Realität aber nicht gerecht.

Um den magischen Wert zu unterschreiten, haben sich dennoch allerlei Tricks eingebürgert, in der Fachwelt bekannt unter dem Begriff p-Hacking. Darunter fallen das schon erwähnte vorzeitige Stoppen und Verlängern einer Datenerhebung. Andere Methoden: »störende« Versuchspersonen auszuschließen oder die Zusammensetzung von Gruppen so lange zu ändern, bis das Ergebnis passt, natürlich mit vorgeschobenen, vermeintlich guten Argumenten. Neben dem p-Hacking gibt es eine weitere fragwürdige Forschungspraxis: das HARKing, kurz für »Hypothesizing After the Results are Known«, das Aufstellen von Hypothesen, nachdem die Ergebnisse bereits bekannt sind.

Veröffentlichung, Zitierungen, Forschungsgelder: All das steht und fällt mit der Frage, ob p kleiner ist als 0,05

HARKing bedeutet in der Praxis: Die Forschenden formmulieren ihre Hypothesen, erheben Daten und stellen fest, dass die vorab vermuteten Effekte zwar nicht auftreten, andere aber schon. Also schreiben sie ihre Hypothese um, schon passt alles zusammen und einer Veröffentlichung steht nichts mehr im Weg. Ethisch ist das nicht einwandfrei. Explorative Überraschungsbefunde sind natürlich auch etwas wert; oft treiben gerade sie den wissenschaftlichen Fortschritt an. Aber sie müssen auch als explorativ dargestellt und im Anschluss konfirmatorisch abgesichert werden.

Das p-Hacking – und damit eine Ursache der Replikationskrise – wurzelt vor allem darin, dass das kleine p einen so großen Stellenwert hat. Zugespitzt formaliert: Veröffentlichung, Zitierungen, Forschungsgelder – all das steht und fällt mit der Frage, ob p kleiner ist als 0,05. Dabei wurde das Signifikanzniveau von fünf Prozent einst mehr oder weniger willkürlich festgelegt. Seit Jahrzehnten wird über eine Abkehr vom p-Wert diskutiert, Alternativen verbreiten sich aber nur langsam.