Problem “statistične značilnosti” in napačnih interpretacij v znanosti

Ena izmed raziskav objav v petih akademskih revijah (N=791) kaže, da več kot polovica raziskav narobe interpretira “statistično značilnost” ocenjenih koeficientov. Če razložim preprosto: dve raziskavi lahko ocenita enako vrednost nekega regresijskega koeficienta, pri čemer prva raziskava oceni preciznost koeficienta pri stopnji zaupanja 96% (P=0.04), druga pa denimo pri stopnji zaupanja 91% (P=0.09). Raziskovalci običajno sklenejo, da v drugi raziskavi koeficient “ni statistično značilno različen od 0” (ker ni značilen pri privzeti stopnji zaupanja vsaj 95%) in da so rezultati druge raziskave v nasprotju s prvo. Kar je napačna interpretacija, saj sta vrednosti koeficientov v obeh raziskavah identična, le interval zaupanja je različen.

To je velik problem, predvsem v farmaciji, medicini in podobnih vedah, kjer so tovrstne študije lahko odločilne glede priporočil za uvedbo določenih zdravil, posegov ipd. Problem je še večji. Ker večina ocenjevalcev in urednikov znanstvenih revij odloča o tem, ali naj bo nek znanstveni članek objavljen ali ne, na podlagi “statistične značilnosti” rezultatov, zaidemo v problem sistematične pristranskosti objavljenih študij: študije s “pozitivnimi” (statistično značilnimi) rezultati bodo bolj pogosto objavljene kot študije z “negativnimi” rezultati (statistično neznačilnimi). To pa vodi do problema samofiltriranja ozrioma samocenzure: ker vemo, da naš članek, ki nikakor ne uspe dobiti “statistično značilnih” rezultatov, nima velikih možnosti za objavo, ga bodisi zavržemo ali zasukamo v drugo smer, ki nam da “značilne” rezultate.

Toda včasih je prav to, da rezultati sistematično niso “značilni”, ključna informacija na nekem področju. Denimo, študije učinkov dviga minimalne plače na zaposlenost, sistematično kažejo, da ni “značilnih” učinkov (ali pa, da so majhni  in gredo v obe smeri). Bomo zaradi tega zavrgli te študije, ki prinašajo izjemno pomembno spoznanje?

No, po ameriški zvezi ekonomistov (2016) se je zdaj z akcijo proti upoštevanju “statistične značilnosti” kot odločilnega testa veljavnosti rezultatov odzvala tudi revija Nature. Spodaj se lahko priključite peticiji.

 

The trouble is human and cognitive more than it is statistical: bucketing results into ‘statistically significant’ and ‘statistically non-significant’ makes people think that the items assigned in that way are categorically different68. The same problems are likely to arise under any proposed statistical alternative that involves dichotomization, whether frequentist, Bayesian or otherwise.

Unfortunately, the false belief that crossing the threshold of statistical significance is enough to show that a result is ‘real’ has led scientists and journal editors to privilege such results, thereby distorting the literature. Statistically significant estimates are biased upwards in magnitude and potentially to a large degree, whereas statistically non-significant estimates are biased downwards in magnitude. Consequently, any discussion that focuses on estimates chosen for their significance will be biased. On top of this, the rigid focus on statistical significance encourages researchers to choose data and methods that yield statistical significance for some desired (or simply publishable) result, or that yield statistical non-significance for an undesired result, such as potential side effects of drugs — thereby invalidating conclusions.

The pre-registration of studies and a commitment to publish all results of all analyses can do much to mitigate these issues. However, even results from pre-registered studies can be biased by decisions invariably left open in the analysis plan9. This occurs even with the best of intentions.

Vir: Nature

%d bloggers like this: