ChatGPT jako lékař?

ChatGPT diagnostikoval nemoce se 72% úspěšností. Schopnosti umělé inteligence se testují i ve složitých lékařských scénářích, kterým lékaři denně čelí, ale AI zůstává v lékařských kruzích dále kontroverzní. Lékaři se potýkají s otázkami, co se počítá jako přijatelná úspěšnost diagnostiky podporované umělou inteligencí a zda spolehlivost umělé inteligence za podmínek kontrolovaného výzkumu obstojí v reálném světě. Nová studie od výzkumníků Mass General Brigham testující výkon ChatGPT na případových studiích uvedených v učebnicích zjistila, že robot AI dosáhl 72% přesnosti v celkovém klinickém rozhodování, od identifikace možných diagnóz až po konečné diagnózy a rozhodnutí o péči.

Umělá inteligence by mohla v konečném důsledku zlepšit efektivitu i přesnost diagnostiky, protože zdravotní péče je stále dražší a komplikovanější a lidé žijí déle při stárnutí celkové populace. V roce 2021 USA vydaly na zdravotní péči přibližně 18 % HDP , což je téměř dvojnásobek průměrné vyspělé ekonomiky. Studie Mass General Brigham je mezi prvními, která hodnotí kapacitu velkých jazykových modelů v celém rozsahu klinické péče, spíše než jediný úkol. Studie „komplexně posuzuje podporu rozhodování prostřednictvím ChatGPT od samého začátku práce s pacientem přes celý scénář péče“ včetně postdiagnostického managementu péče.

ChatGPT stanovil konečnou diagnózu správně v 77 % případů. Nicméně v případech vyžadujících „diferenciální diagnostiku“ – porozumění všem možným stavům, které může daný soubor příznaků naznačovat – klesla úspěšnost robota na 60 %. Druhá studie provedená ve 171 nemocnicích v USA a Nizozemsku zjistila, že model strojového učení nazvaný ELDER-ICU uspěl při identifikaci závažnosti onemocnění starších dospělých přijatých na jednotky intenzivní péče, což znamená, že „může lékařům pomoci při identifikaci geriatrických pacientů na JIP, kteří potřebují větší nebo dřívější pozornost."

I když umělá inteligence předčila lékařské profesionály v některých specifických úkolech , jako je detekce rakoviny z lékařského zobrazování, mnoho studií možného lékařského využití umělé inteligence se teprve musí převést do reálné praxe a někteří kritici tvrdí , že studie umělé inteligence nejsou založené na skutečných klinických potřebách. Testy umělé inteligence ve výzkumném prostředí nepřicházejí bez rizika soudních sporů za zanedbání povinné péče, na rozdíl od lidí operujících samostatně nebo s pomocí umělé inteligence ve skutečných klinických podmínkách.

Hodnota pomoci umělé inteligence pro lékaře je nejzřetelnější v raných fázích péče o pacienta, kdy je potřeba jen málo informací (je k dispozici) a seznam možných diagnóz. Velké jazykové modely je třeba zlepšit v diferenciální diagnostice, než budou skutečně připraveny k reálnému nasazení. Výzkumníci by se měli také podívat na to, jak aplikovat AI na nemocniční úkoly, které nevyžadují konečnou diagnózu, jako je roztřídění na pohotovosti. ChatGPT začíná vykazovat schopnosti nově vystudovaného lékaře, ale protože neexistují „žádná skutečná měřítka“ pro míru úspěšnosti mezi lékaři na různých úrovních seniority, znamená, že posouzení, zda umělá inteligence přidává hodnotu k práci lékaře, bude i nadále složité.

Pro možné nasazení ChatGPT nebo srovnatelných modelů umělé inteligence v nemocnicích je zapotřebí více srovnávacího výzkumu a regulačních pokynů a úspěšnost diagnostiky se musí zvýšit na 80 % až 90 %.

ACRESIA