90% testov v psiholoških študijah je brez veze

Zadnjič sem pisal o grozovitih težavah v akademski psihologiji (The Trouble with Psycho), kjer večine testov ni mogoče replicirati. No, pravkar je bila objavljena študija velikega konzorcija raziskovalcev v Journal of the American Statistical Association, kjer so poskušali replicirati 100 najbolj odmevnih testov v psihološih ekperimentih. Ugotovili so, da čeprav so te študije v 97% primerov pokazale statistično značilne rezultate, so pri ponovitvi to statistično značilnost lahko ugotovili le v 36% primerov. In še več, ugotovili so, da v več kot 90% primerov gre za teste zanemarljivh učinkov.

Ključno je sporočilo te študije: treba je dvigniti prag za razglasitev novih odkritij in študije bi morale vsebovati tudi statistični povzetek glede deleža testiranih hipotez, ki so napačne. Drugače rečeno, študije bi morale jasno razkriti, koliko testiranih hipotez ni dalo željenih rezultatov (neznačilni  koeficienti ali koeficienti z “napačnim” predznakom). Eden izmed ključnih problemov v znanosti je namreč pristranost objav v akademskih revijah: vidimo (so objavljeni) zgolj rezultate študij s pozitivnimi rezultati, ne vidimo pa študij, ki so zavrnile določene hipoteze. Sploh v farmaciji, medicini, psihologiji, pa tudi v ekonomiji, pa so najmanj enako pomembne tudi študije, ki so zavrnile hipoteze s pričakovanimi rezultati.

Investigators from a large consortium of scientists recently performed a multi-year study in which they replicated 100 psychology experiments. Although statistically significant results were reported in 97% of the original studies, statistical significance was achieved in only 36% of the replicated studies. This article presents a re-analysis of these data based on a formal statistical model that accounts for publication bias by treating outcomes from unpublished studies as missing data, while simultaneously estimating the distribution of effect sizes for those studies that tested non-null effects. The resulting model suggests that more than 90% of tests performed in eligible psychology experiments tested negligible effects, and that publication biases based on p-values caused the observed rates of non-reproducibility. The results of this re-analysis provide a compelling argument for both increasing the threshold required for declaring scientific discoveries and for adopting statistical summaries of evidence that account for the high proportion of tested hypotheses that are false.

Vir: Journal of the American Statistical Association

One response

  1. Bravo! Točno tako!!

    Sam sem podoben efekt doživel, ko sem kot mlad trainee konec osemdesetih let prejšnjega stoletja delal v eni od kanadskih zavarovalnic na področju raziskav trga. Čisto vse statistične raziskave so bile napačne in to iz istih vzrokov kot so navedeni zgoraj.

    So pa nadrejeni to takrat, kljub kislim obrazom sodelavcev, pozitivno sprejeli, mi takoj ponudili službo in mimogrede pripomnili, da izobrazba na “komunističnih” univerzah (Ekonomska fakulteta v Ljubljani) očitno ni nič slabša od zahodnih.😉

%d bloggers like this: