Orvosi AI-forradalom helyett hitelességi válságot hozott 2020

2021 június 5., szombat 2:50

Az elmúlt egy évben olyan mennyiségben töltöttek fel tanulmányokat kutatók a hagyományos ellenőrzés előtt preprint szerverekre, vagy jelentettek meg már ellenőrzés után orvosi szaklapokban a mesterséges intelligencia orvosdiagnosztikai felhasználásáról, hogy valóban úgy tűnhetett, a koronavírus-járvány elhozta az AI-forradalmat az orvoslásban. Cassey Ross. a Stat orvosi hírlap technológiai szakírójának cikke alapján azonban ez inkább tűnik délibábnak. Mint írja, a tanulmányok elemzése és az AI-alapú diagnosztikai eszközök gyakorlati használata alapján valójában inkább hitelességi válságról, mintsem forradalomról beszélhetünk.

A tényleg százával készült tanulmányokból több mint négyszázat a Cambridge-i Egyetem kutatócsapata tanulmányozott át, és arra a megrázó következtetésre jutott, hogy kivétel nélkül mindben volt végzetes, a tanulmány eredményét teljes mértékben megkérdőjelező hiba. "Revelációként hatott, és igazán meglepő is volt, hogy hány módszertani hiba volt ezekben" - mondta a Statnak Ian Selby radiológus, a cambridge-i kutatócsoport tagja.

A kutakodásaik során kiderült, hogy a betegségeket diagnosztizáló algoritmusokat gyakran nagyon kicsi, ráadásul egy forrásból származó adatmintákkal tanították, melyek egyáltalán nem is voltak változatosak, sőt, még az is előfordult, hogy újra és újra felhasználták ezeket az adatokat a gépi tanuláshoz és a teszteléshez. Ez pedig főbenjáró bűn: mivel az AI kevés mintából tanul, majd hatékonyságát ugyanazon a mintán elemzik, félrevezetően meggyőző teljesítményt nyújthat. Selby, bár maga AI-hívő, ez alapján arra jutott, hogy nem nagyon lehet hinni ezekben a tanulmányokban.

Ross szerint ezek az eredményeket alapjaikban megkérdőjelező módszertani hibák több rendszerszintű okra vezethetők vissza:

  • a területen nagyon intenzív a verseny, ezért nagyon szűk határidőkkel publikálják a tanulmányokat;
  • sok, csak preprintben megjelent, további kutatásokban gyakran hivatkozott tanulmány nem esett át megfelelő ellenőrzésen;
  • a gyorsaság érdekében gyakori, hogy nem elég rigorózus a kísérletek felépítése.

De mind közül a legsúlyosabb probléma, ami általában is komoly nehézséget okoz a gépi tanulásban, hogy nagyon kevés a nagyméretű, megfelelően sokszínű adatbázis, amelyekkel taníthatnák az AI-t, majd hitelesíthetnék a működését. A létező kevés ilyen adatbázis java pedig nem nyilvános - vagyis azoknak a tudósoknak sincs eszközük az állítások igazolására, akik ellenőriznék a tanulmányokat.

Így aztán elég gyakori, hogy az eredeti kísérletekben nagyon pontosnak tűnő algoritmusok a való életben sokkal rosszabbul teljesítenek. Márpedig Matthew McDermott, az MIT kutatója szerint "amennyiben a teljesítményt nem lehet reprodukálni a kórházi ellátásban, akkor lényegében olyan algoritmusokat engedélyezhetünk, amikben valójában nem bízhatunk".

Ross szerint McDermott félelme nem elméleti. Mint írta, az FDA által eddig engedélyezett 161 AI-termékből csak 73-nál hozták nyilvánosságra, hogy egyáltalán milyen mennyiségű adatot felhasználva hitelesítették a működésüket, és csupán hétnél publikálták az adatbázisban szereplő emberek csoportjának faji összetételét. Ross a Stanford Egyetem egy kutatására is hivatkozik, melyben arra jutottak, hogy az AI-eszközök elenyésző hányadánál tették közzé, hogyan teljesített különböző demográfiai csoportokban.

Hogy milyen vészes a helyzet, azt a cambridge-i kutatás adatai igazolják. A több mint négyszáz vizsgált tanulmányból mindössze 62 jutott át az első szűrőn, amiben pedig csak azt vizsgálták, hogy a tanulmányokban megjelölték-e a gépi tanuláshoz használt adatok forrását, vagy egyáltalán részletezték-e, hogyan tanították az algoritmusaikat. A fennmaradó 62 tanulmányból 55-nél találtak más súlyos problémákat. 2020-ban például nagyon sok algoritmust fejlesztettek arra, hogy tüdőröntgen-felvételek alapján szűrni tudják a fertőzötteket. A cambridge-i kutatók szerint azonban

  • sok esetben olyan felvételekkel tanították az algoritmusokat, amelyekről nem lehetett biztosan tudni, hogy covidos betegről készültek;
  • több ilyen algoritmust pedig ötévesnél fiatalabb tüdőgyulladásos páciensek röntgenfelvételeivel tanították.

Ez utóbbi Selby szerint azért problémás, mert "az ötévesnél fiatalabb gyermekek anatómiája jelentős mértékben eltér a felnőttekétől". Vagyis egyáltalán nem meglepő, hogy ezek az algoritmusok a kísérletekben rendkívül hatékonyan különböztették meg a szimplán tüdőgyulladásos kisgyerekek röntgenfelvételét a felnőtt covid-betegekétől, hiszen már csak életkoruk miatt is nagyon másként néztek ki.

Az is aggasztó, hogy a cambridge-i kutatócsoport nem csupán a preprint-szervereken ellenőrzés nélkül közzétett, hanem az orvosi szaklapokban ellenőrzötten publikált tanulmányokban is komoly hibákat talált. Ross cikke alapján ez részben arra vezethető vissza, hogy az ellenőrzést végzők nem is igazán értenek a gépi tanulás módszertanához, vagy elfogultak a prominensebb intézményekkel, cégekkel szemben. Ennél általánosabb, így jelentősebb probléma, hogy egyelőre nincs is tudományos konszenzus az orvoslásban használt gépi tanulás elbírálásának standardjairól. (Via Stat News. Címlapi illusztráció: VICTOR HABBICK VISIONS/SCIENCE P/Science Photo Library via AFP)