Årtiets videnskabelige skandale? Forsker tog kampen op mod med-tech gigant

Simon Tilma Vistisen smiler skævt og retter sig op i stolen. Man kan mærke, at han har fortalt historien mange gange før og har opbygget en vis rutine. Alligevel strømmer passionen ud af ham, mens han fortæller om den vedholdenhed, der de senere år har ført ham rundt i en verden af fejlslutninger, tabte relationer og bøvlet jura.

Simon Tilma Vistisen forsker i hjertets kredsløbsfysiologi på Institut for Klinisk Medicin og er efter eget udsagn landet lidt tilfældigt i en af det seneste årtis største videnskabelige skandaler indenfor sit felt.

”I min forskning bruger jeg målinger fra intensivpatienter og patienter under operationer til at sige noget om, hvordan hjertet fungerer, og hvordan det arbejder. Det skal gøre det muligt at fortælle læger, hvordan patientens hjerte har det lige nu, og hvordan man eventuelt skal behandle det med væsketilførsel eller medicintyper, hvis hjertet ikke pumper helt så meget, som kroppen har brug for,” fortæller Simon Tilma Vistisen.

Det arbejde førte ham til Holland på en Sapere Aude postdoc-bevilling i slutningen af 2016. Der indsamlede han data, som senere viste sig at kunne bruges til at validere en såkaldt machine learning-algoritme, som var under udvikling af det amerikanske teknologifirma, Edwards Lifesciences.

”De havde brug for at validere deres algoritme. Min kollega i Holland havde et pågående samarbejde med firmaet, og da jeg allerede havde indsamlet relevante data, så kunne de lige så godt genbruges til deres validering. Da jeg i 2018 var kommet hjem fra mit udlandsophold i Holland og senere Boston, fik jeg tilsendt et manuskript, der beskrev, hvordan algoritmen var i stand til at forudsige blodtryksfald under operationer,” siger Simon Tilma Vistisen.

En simpel algoritme

At udvikle en algoritme, der kan forudsige lavt blodtryk på patienter, virker umiddelbart som en god ide, forklarer forskeren. Blodtrykket kan under store operationer være ret ustabilt og falde tilsyneladende uforudsigeligt. store observationelle studier indikerer, at det kan være problematisk for patienter, hvis de har haft et lavt blodtryk under en operation, da fx nyrerne ikke har været tilstrækkeligt forsynet.

Målet med algoritmen var derfor at forudsige, om et blodtryksfald var nært forestående – så det kunne behandles proaktivt og måske helt undgås. Og det var netop algoritmens evne til at forudsige blodtryksfald korrekt, som Simon Tilma Vistisens data skulle bruges til at validere i studiet.

”Helt konkret havde machine learning-teknologien angiveligt lært at genkende, hvordan en blodtrykskurve ser ud, når blodtrykket fem minutter ude i fremtiden falder under en kritisk grænse. Som en del af valideringen bad jeg forskerne fra Edwards om, at vi samtidig viste, om algoritmen var bedre end et helt banalt gæt” siger han.

Forskerne fra firmaet tilføjede den ønskede analyse til manuskriptet, og deres algoritme var tilsyneladende væsentligt bedre end det banale gæt.

”Det banale gæt svarer lidt til, at vi spørger en person, om Novo-aktiens kurs snarligt overstiger 750. Det vil personen ikke umiddelbart have forudsætninger for at vide, men hvis man oplyser, at kursen er 500 eller 700, vil enhver jo nok skyde på, at det er i det sidste tilfælde, at aktien har størst sandsynlighed for at krydse 750 i nær fremtid. På tilsvarende måde bad jeg firmaet analysere, hvor meget deres algoritme er bedre til at sige, om blodtrykket falder under det kritiske niveau om fem minutter eller ej sammenlignet med gæt baseret på, hvad blodtrykket er lige nu,” siger Simon Tilma Vistisen.

Studiet blev publiceret i 2019 og er i dag højt citeret. Kort forinden havde firmaet desuden udgivet den første artikel om den overordnede udvikling af algoritmen.

Foto: Simon Fischel, AU Health. Genereret af Adobe Firefly.

Grus i maskineriet

Der var dog ét problem. Firmaets analyser passede ikke med Simon Tilma Vistisens mavefornemmelse, men de måtte da have lavet analyserne rigtigt. Edwards Lifesciences er trods alt et kæmpe firma og samarbejdede med en af de vigtigste europæiske forskere på området.

"En dag i efteråret 2021 skulle jeg forklare en medicinstuderende en bestemt kurve for algoritmen, og det kunne jeg nærmest ikke, fordi jeg indså, at den havde en mærkværdig form. Kort efter viste jeg kurven til min ph.d.-studerende Johannes Enevoldsen og sagde, at det måtte have et eller andet at gøre med, hvordan data var udvalgt. Johannes kom ind på mit kontor 20 minutter senere, nærmest med ild i øjnene: Han havde genlæst det allerførste studie og, genial som han er, indså han hurtigt, hvad der stod beskrevet omkring dataudvælgelsen. Det var som en puslespilsbrik, som roterede, og så passede lige ind i alt det, vi havde undret os over,” siger Simon Tilma Vistisen.

Med den beskrevne dataudvælgelse burde kurverne for det banale gæt og algoritmens forudsigelser have samme form – men det havde de på ingen måde.

”Jeg kontaktede mine fire medforfattere, der alle arbejdede helt eller delvist for firmaet. Firmaets udviklere skrev tilbage, at data var udvalgt på næsten samme måde – bortset fra en enkelt, lille forskel. Det var puslespilsbrikken. Kurverne, der viste, hvor godt algoritmen og det banale gæt forudsiger lavt blodtryk, var forskellige i deres form, alene fordi de ikke var blevet udsat for den samme dataselektion. Helt konkret betyder det, at studiets oprindelige konklusioner var fuldstændig forkerte, fordi vi dermed sammenlignede pærer og bananer” siger Simon Tilma Vistisen.

Firmaet holdt dog fast i, at det ikke var noget problem, selvom Simon Tilma Vistisen stod fast på, at studiet måtte korrigeres. Han besluttede derfor at beskrive fejlen i en stor kommentar til det allerførste studie sammen med sin ph.d.-studerende.

Beskrivelsen blev bl.a. peer reviewed af et af de største hotshots indenfor, hvordan data opfører sig over tid.

Han skrev i sit review: ”I stopped reviewing the paper in question on page 5, line 20, because I was genuinely shocked by what I read. I looked at the previous manuscript instead, and verified that they had, in fact, defined a non-event exactly as represented by Enevoldsen and Vistisen. The previous manuscript is based on a fundamentally (and fatally) flawed data definition. When the data are correctly analyzed, the findings should speak for themselves”.

“Da jeg læste dette, var jeg ikke i tvivl om, at vi ville komme i mål med at korrigere mit eget studie,” fortæller Simon Tilma Vistisen.

En langvarig kamp

Siden har Simon Tilma Vistisen stået fast på sin forskningsintegritet og kommunikeret vidt og bredt om projektets fejlslutninger i både videnskabelige artikler, på sociale medier og i direkte kontakt med firmaets udviklere.

At værne om den videnskabelige integritet var dog tiltagende besværligt:

”Undervejs i diskussionerne opsagde min primære samarbejdspartner sit professorat i Holland og begyndt at arbejde fuld tid for Edwards Lifesciences med ansvar for at kommunikere om præcist denne teknologi. Han var min primære samarbejdspartner og ekstremt vigtig for mig som ung forsker. Han var også en god ven, så det var vildt ærgerligt, at jeg var nødt til at råbe op om det her. Han følte sig helt sikkert forrådt, og vi har kun sparsom kontakt i dag,” siger Simon Tilma Vistisen.

At sætte sig op mod et firma med så store muskler har heller ikke været uden bekymring, og forskeren har fra starten været opmærksom på at undgå juridiske forviklinger.

”Firmaet bad mig på et tidspunkt om at slette alle data. De havde delt dem med mig, og jeg har på skrift, at jeg måtte genanalysere dem. Men i 2022 måtte jeg pludselig ikke længere. Jeg overvejede det meget, men i dag har jeg faktisk slettet det hele. Mit gemyt orker ikke at bekymre mig om et kæmpestort amerikansk søgsmål,” siger Simon Tilma Vistisen.

Forskeren håbede fra start på langt mere opmærksomhed fra fagmedier og videnskabelige tidsskrifter, men i 2022 stod sagen stille i over 6 måneder.

”Den stilstand har været en vildt frustrerende proces, men hvis jeg som forsker ikke har min videnskabelige integritet, så kan alt andet være lige meget. Jeg havde mange overvejelser om, hvad min vedholdenhed ville betyde for min karriere, mine relationer, og hvordan jeg skulle balancere det uden at virke skinger,” siger Simon Tilma Vistisen og fortsætter:

”Jeg var på et tidspunkt ved at få pip af, at der ingenting skete. Det fyldte så meget, at jeg i en periode vågnede en hel del om natten, fordi jeg simpelthen ikke kunne slippe det. Også i arbejdstiden havde jeg svært ved at fokusere på andet. Jeg ved ikke, om man skal kalde det stress eller konsekvensen af min vedholdenhed, men det har fyldt alt for meget og været ved at æde mig i perioder,” siger Simon Tilma Vistisen, der samtidig påpeger, at der på AU har været god støtte i en aparte sag.

”Jeg vil sige, at det har været værdifuldt at kommunikere åbent overfor ledelse og kolleger, hvordan sagen har påvirket mig og desuden gøre brug af de ressourcer, der ligger for rådgivning og sågar en erhvervspsykolog i den mest pressede periode,” siger han.

”Kejserens nye klæder”

I dag er det fejlbehæftede studies konklusioner trukket tilbage af tidsskriftet, og mange har i den videnskabelige verden fået øjnene op for Simon Tilma Vistisens kamp. Der er en tiltagende mængde uvildige forskergrupper, som med egne data bakker op om udlægningen af fejlen. Desuden har sagen betydet, at Simon Tilma Vistisen er trådt mere ind i machine learning-verdenen, og nu besøger en lang række videnskabelige konferencer for at tale om sine erfaringer med emnet.

”Jeg håber, at min historie kan hjælpe med at skabe opmærksomhed på den konkrete sag, men også hjælpe med at korrigere på de mekanismer, der ikke har fungeret her,” siger Simon Tilma Vistisen og fortsætter:

”Machine learning er altså ikke en tryllestav. Kunstig intelligens er kraftfuldt og anvendeligt i nogle sammenhænge som f.eks. ChatGPT og medicinske billeder, men der er bare rigtig mange applikationer inden for sundhed, hvor det ikke fungerer endnu, og hvor man ikke går projekterne nok efter i sømmene. Machine learning er i et vist omfang blevet et hokus pokus-ord, som får folk til at glemme deres ellers sunde skepsis. I virkeligheden bliver det i nogle tilfælde ren ”Kejserens nye klæder”.

Desuden håber forskeren, at der på det regulatoriske område kommer fokus på, hvordan denne slags teknologi godkendes af fx de amerikanske og europæiske myndigheder, før man sender værktøjer gennem systemet, der kan ende med at lede til fejlbehandling af patienter.

”Den her sag er i min optik dette årtis foreløbigt største skandale for firmaer inden for vores felt. Jeg tror især, at det i 2024 bliver tydeligt for flertallet i den videnskabelige verden, hvad der er gået galt. Og så må vi se, om firmaet har tænkt sig at fortsætte med sin benhårde markedsføring eller hiver plastret af,” afslutter Simon Tilma Vistisen.

Kontakt

Lektor Simon Tilma Vistisen
Aarhus Universitet, Institut for Klinisk Medicin
Mobil: 20 67 68 68
Mail: vistisen@clin.au.dk