Perverznost neponovljivosti rezultatov raziskav

… ali Zakaj nočemo ali si ne upamo kritizirati kolegov?

Stephen Hsu in Douglas Campbell sta napisala dva odlična blog posta o standardni perverziji, ki vlada na področju ekonomije (in seveda tudi drugod, le da pišeta le o svojem področju). Namreč, da neka avtoriteta na svojem področju objavi raziskavo, ki gre nekako v skladu s popularnimi pričakovanji, vsi jo široko citirajo. Vendar pa ima le en droben problem: ni je mogoče replicirati. In nikomur kot da ni nič nič mar. Starejši kolegi so vljudno tiho. Pa tudi če bi napisali komentar, v čem so napake objavljene raziskave, zelo verjetno ne bi bile objavljene, saj tudi urednikom akademske revije ne ustreza, da so skozi sito spustili raziskavo, ki pač ni korektna.

Mlajši, se “prilagodijo” na drug način: ko ne uspejo ponoviti rezultatov starejših in uveljavljenih kolegov, pač tako dolgo “sprobavajo” različne specifikacije empiričnega modela, dokler jim pač ena izmed stotih ne da podobnih rezultatov (in povedal bom nekaj grdega, kar sicer vsi vemo: z istimi vhodnimi podatki, vendar z različno zasnovanim modelom in različno ekonometrično tehniko lahko dobite petnajst različnih rezultatov in vsi bodo “statistično značilni” – to je zelo lepo pokazal ekonometrik Edward Leamer v Let’s take the con out of econometrics). Z rezultati, ki bi bili zelo drugačni ali celo razkrinkali nerobustnost rezultatov starejših in uveljavljenih kolegov, bi mlajši tvegali, da njihov članek ne bi nikoli uzrl luči objave v dobri akademski reviji ali pa bi se zamerili in s tem tvegali napredovanje.

Ja, to je velika perverzija v znanosti, o kateri noče nihče kaj preveč javno govoriti, le med kolegi otresamo jezik. Tudi jaz jih poznam nekaj, ena izmed njih je objavljena celo v Econometrici. Redke so raziskave, ki so bile javno razkrinkane kot napačne, denimo raziskava Reinhartove in Rogoffa (z znano “napako v excelu“) ali raziskava Alesine in Ardagne. Pa še ti sta bili razkrinkani bodisi po naključju, bodisi zato, ker sta bili tako zelo razvpiti med politiki, ki so ju široko navajali, da bi upravičili svoje politike glede zategovanja pasu.

 

Je pa res, da gredo stvari s popularizacijo blogov v bolj pozitivno smer, saj je “obrat” hitrejši. Prej si moral čakati, da je bil nek članek objavljen v akademski reviji, kar traja dve do tri leta, nato napisati komentar in spet čakati na objavo kakšno leto. Danes pa lahko objaviš kritični pogled na neko raziskavo že isti dan, ko je bila objavljena v preliminarni obliki (kot delovni zvezek). Pa tudi pristop se je nekoliko spremenil, saj želimo tako popularizirati raziskovalne dosežke na svojem področju kot tudi “biti uporabni” glede ekonomske politike oziroma vsakodnevnih zadev. Zato napačne oziroma raziskave z neponovljivimi rezultati niso več nedolžna akademska igra, ampak ima vsak napačno ocenjen koeficient lahko dramatične posledice glede implikacij (sploh če je v resnici “statistično neznačilno različen od nič” ali če je manjši ali večji od tistega, ki je bil objavljen na podlagi vprašljive metodologije). Dober primer tega je učinek minimalnih plač na zaposlenost, o čemer sem tukaj večkrat pisal.

Morda ni oportuno o tem pisati, kar sicer vsi vemo, vendar pa mislim, da je potrebna določena mera “higiene” in da je pač stvarem treba reči to, kar v resnici so.

#1 is spot-on for economics. Woe be to she who bucks the dominant narrative. In economics, something else happens. Following the study, there are 20 piggy-back papers which test for the same results on other data. The original authors typically get to referee these papers, so if you’re a young researcher looking for a publication, look no further. You’ve just guaranteed yourself the rarest of gifts — a friendly referee who will likely go to bat for you. Just make sure your results are similar to theirs. If not, you might want to shelve your project, or else try 100 other specifications until you get something that “works”. One trick I learned: You can bury a robustness check which overturns the main results deep in the paper, and your referee who is emotionally invested in the benchmark result for sure won’t read that far. …

Most researchers in Economics go their entire careers without criticizing anyone else in their field, except as an anonymous referee, where they tend to let out their pent-up aggression. Journals shy away from publishing comment papers, as I found out first-hand. In fact, much if not a majority of the papers published in top economics journals are probably wrong, and yet the field soldiers on like a drunken sailor. Often, many people “in the know” realize that many big papers have fatal flaws, but have every incentive not to point this out and create enemies, or to waste their time writing up something which journals don’t really want to publish (the editor doesn’t want to piss a colleague off either). As a result, many of these false results end up getting taught to generations of students. Indeed, I was taught a number of these flawed papers as both an undergraduate and a grad student.

Vir: Douglas Campbell

5 responses

  1. »Morda ni oportuno o tem pisati, kar sicer vsi vemo, vendar pa mislim, da je potrebna določena mera “higiene” in da je pač stvarem treba reči to, kar v resnici so.«

    Ne bi se mogel bolj strinjati. A problem je še širši kot ga opisujete. Nedelovanje celotne stroke je v veliki meri krivo za finančno krizo. Po strokovnih finačnoposlovnih uzancih (Kodeksu poslovno finančnih načel) Inštituta za revizijo, ki je obvezen za revizorje in tudi za vse, ki se kakorkoli ukvarjajo s finančnim področjem, večino obsega kreditov podjetja, ki so v krizi finančno zablodila, v konjunkturnih letih sploh ne bi smela vzeti in banke jih (po svojih standardih) tem podjetjem ne bi smela dajati. Odpovedala je tako delovna in kot tudi nadzorna profesionalnost v podjetjih, v bankah in celotnem finančnem sistemu. Finančni sistem bi morala izrecno ravno po tej plati nadzirati centralna banka, ki je neposredno odgovorna za stabilnost finančnega sistema in o njem in njegovih tveganjih tudi vsako leto poroča. Te vrste profesionalne odgovornosti so tudi v finančnih zakonih omenjene in opredeljene kot malomarnosti z odškodninskimi posledicami.

    Iz konzervativnega finančništva, ki je bila dobra lastnost slovenskega gospodarstva od osamosvojitve do konjunkture je bil preokret v “kreativno”, “vizionarsko”, “veseljaško”, “denar metajoče”, itd. finančništvo v konjunkturi zelo izrazit in ta preokret je bil podlaga za našo finančno krizo.Ta vidik v širšem kontekstu večkra izpostavi Franček Drenovec.

    Kakor sami razlagate za ekonomske raziskovalce glede tišine o strokovnosti raziskav je tudi ekonomska stroka in še posebno njena finančna smer o neprofesionalnosti lastnega dela dosledno tiho. Malomarnosti se ne omenja, ker pa je problem prevelik, da bi se lahko “preveslal” se za potrebe javnosti prodaja teze o tem, da so vsi tako delali , da je bil to duh časa, tu pa tam se zadeva označi kot veselica in to je to. Tako se pojav profesionalne malomarnosti družbeno ne pripoznava in ne sankcionira (čeprav bi se lahko in bi se za dobro te države tudi moral).

    Podobno, si upam trditi, ni samo v ekonomiji. Velika večina »napak« in »površnosti« se zgodi na ravni »strokovnosti« predlogov in ne na ravni pravnih procedur. »Higieno« tako potrebujemo predvsem na ravni strok, ki pa nikakor nočejo opravljati svojega dela pa čeprav so k temu izrecno zavezane.

    Lep pozdrav Igor

  2. Nosilec bloga nam ta teden ponuja zanimiv nabor tem, ki imajo nekaj skupnega:
    Vse, razen delno IMF ovega prispevka, opozarjajo na določene slabosti različnih delov sodobne družbe, za katere ne najdemo pravega – strokovnega, teoretičnega pojasnila. Je pa odgovor precej enostavnejši in ravno v tej enostavnosti je zaobsežena huda kritika sistema. Gremo po vrsti:
    – neponovljivost (nestrokovnost) raziskav na tistih področjih, kjer dokazovanje ni eksaktno (kot je v matematiki ali fiziki). Tu je na delu enostaven oportunizem. Ko se enkrat količina strokovnjakov inflacijsko poveča krepko čez normalno Gaussovsko distribucijo inteligence pri ljudeh, potem se “strokovnjaki” poslužujejo vseh mogočih metod, da opravičijo svojo titulo in da ne bi preveč zamajali barko, na kateri plujejo z drugimi “strokovnjaki”, se vzdržujejo medsebojnih kritik. Nadalje iščejo svojo potrditev na druge načine, za ekonomiste je zelo prikladen izlet v politiko ali še raje v svet kapitala, kjer s svojo servilnostjo dajejo strokovno fasado raznim pritlehnim rabotam. Za ekonomsko stroko je bila zadnja finančna kriza taka iztreznitev.
    – 2TDK: S tem pojavom imamo opraviti tudi pri investiciji 2TDK, kjer so tudi inženirji podpisali skrpucalo, ki so jim ga vsilili politični lobiji, vse za ljubi kruhek. Celo ugledni pravnik g. Rajko Pirnat se je podpisal (za dober honorar) pod slab zakon, ki bi lahko dal legalnost novemu TEŠ6.
    – Manipulacije z informacijami so bile vedno del taktike obvladovanja naivnih množic oziroma nasprotnikov, že od Sun Tzuja na Kitajskem 500 let pred n.št., preko Machiavellija, diktatorjev Hitlerja in Stalina do današnjega Trumpa, vendar pa njegova nonšalantnost preseneča – ali je on tak butelj, ali smo pa dandanes res vsi že take ovce?
    – raziskava IMF je v bistvu strokovna in kaže na to, da avtomatizacija povzroča krčenje delovnih mest v predelovalni industriji. Vendar je to le delna informacija. Ravno tako je jasno, da globalizacija povzroča podobno krčenje delovnih mest v predelovalni industriji v razvitem svetu (oziroma jih seli v manj razvite države). Ekonomisti se tako pričkajo, kaj znižuje zaposlenost v predelovalni industriji, robotizacija ali globalizacija in tako zakrivajo največji vpliv na zmanjšanje deleža za plače v BDP (s čimer se pravzaprav ukvarja IMFova raziskava) to je moč kapitala, da znižuje plače iz pozicije moči in oblasti (ki jo tako ali tako obvladuje). Tako se delna informacija spremeni v manipulacijo, saj zakriva najpomembnejši razlog. Edino Piketty je lepo povzel skupni učinek z neenačbo r>g.
    In kaj je ta enostavni odgovor: moralni propad intelektualca. Včasih je veljalo, da če imaš neko akademsko ali vodstveno titulo, si tudi časten in pošten, dandanes pa so te kvalitete med strokovnjaki in vodilnimi politiki vedno redkejše. Torej bi morali v sodobni družbi bolj ceniti in iskati te žlahtne lastnosti kot pa kakršne koli titule, tudi doktorske in predsedniške.

    Drago Babič

  3. Drago,

    Od pamtiveka si vedno imel “kupljive” strokovnjake in intelektualce oziroma bolj ali manj etične. Tukaj ne gre za nič novega.

    S tem, da pri zgornjih zadevah ne gre nujno za neetične zadeve ali namerno pristranske. Kot veš, nihče že po definiciji ne more biti objektiven in vsakdo se loti reševanja nekega problema na podlagi apriornih prepričanj. Pri tem (lahko nezavedno) izbira koncepte in metode, ki naravno pašejo v njegov miselni svet in zanemarja druge, ki pač tja ne sodijo in jih morda niti ne pozna.
    Torej je končni produkt (raziskava) lahko pristranska, ne da bi se raziskovalec tega sploh zavedal. Nihče pri sebi ne vidi ideološke predeterminiranosti, večina mojih kolegov pravi, da so absolutno ideološko nevtralni. Vendar nis(m)o in vse naše raziskave nosijo v sebi pristranskost, ki se je večinoma sploh ne zavedamo.

    Seveda pa je povsem drug problem, kadar gre za namerno ponarejanje rezultatov. To pa, kot sem napisal v prvi alineji zgoraj, obstaja že od pamtiveka. Nimam občutka, da je tega danes več.

    • Jože,

      V tem primeru gre za kriterij, kaj je znanstveno dokazan princip oz. dejstvo. Samo enkratno opisan dosežek je premalo, mora biti preizkušen in potrjen s strani drugih, neodvisnih strokovnjakov in s ponovljivostjo šele pridobi veljavo. V naravoslovju je to ustaljen način delovanja. Če ponovljivosti ni, je pač to slaba znanost.

      Jaz sem imel v mislih bolj mejne primere, ne v čisti znanosti, ampak tam, kjer odstopanje od stroge stroke prinese nekomu velike koristi. Za 2TDK ali za kreditno norijo, namenjeno privatizacijam v letih 2005-2008 ali Trumpovo tvitanje, za vse to ne moremo ravno reči, da so se strokovnjaki (in predsednik ZDA) dobronamerno čisto malo zmotili, ampak je bilo to delano zavestno in od tega so imeli korist.
      Pri IMF-ovi raziskavi lahko rečemo, da je objektivna, vendar tudi ti ugotavljaš, da ji za kvalitetno informacijo še nekaj manjka. In danes je med pomanjkljivo informacijo in manipulacijo majhna razlika, vprašanje v kakšnem kontekstu je uporabljena.

    • Verjetno smo spet pri tem, da ekonomska znanost ni fizika, ali kemija kar se tiče ponavljanja rezultatov raziskav. Zakaj obstaja tak tabu pri dokazovanju neponovljivosti, pa morda tudi ni tako težko videti, glasi se: “jaz citiram tebe, ti citiraj mene”. In obratno, “ti kritiziraj mene, jaz ne citiram tebe”. V sodobnem, s številom citatov obsedenem znanstvenem okolju je inflacija citiranih (ne pa tudi nujno kvalitetnih) raziskav žal neljuba, ampak logična posledica. V takem okolju lahko nastaja neka inherentna pokvarjenost in neznanstvenost.

      S tem znanstvena(?) literatura postaja podobna trgu “navadne” literature. Zelo priljubljena, citirana, kupovana in tudi brana knjiga morda vsebinsko ni ravno najboljša. Kritik, ki bo tako delo raztrgal in pokazal na cesarja-nagca pa bo zgolj pokvaril zabavo.

%d bloggers like this: