Zielsetzung
Ziel dieser Studie war die Analyse der Machbarkeit des großen Sprachmodells (Large Language Model) ChatGPT für die Klassifizierung von Leberläsionen gemäß LI-RADS anhand von MRT-Befunden und die Klassifikationsleistung in strukturierten gegenüber unstrukturierten Befunden.
Material und Methoden
LI-RADS-klassifizierbare Leberläsionen wurden aus strukturierten und unstrukturierten MRT-Befunden ausgewählt, wobei die Mindestanforderungen für die Aufnahme die Angabe von Größe, Lage und die Kontrastmittelanreicherung in der arteriellen Kontrastmittelphase waren. Die Befundabschnitte der Berichte wurden an ChatGPT (GPT-3.5) weitergegeben, welches angewiesen wurde, LI-RADS-Werte für jede klassifizierbare Leberläsion festzulegen. Die Ground Truth wurde durch Konsens von zwei Radiologen festgelegt. Die Übereinstimmung zwischen Ground Truth und ChatGPT wurde mit Cohen's Kappa bewertet. Die Test-Retest-Reliabilität wurde beurteilt, indem ein Teil von n=50 Läsionen fünfmal an ChatGPT weitergegeben wurde, wobei der Intraclass-Korrelationskoeffizient (ICC) verwendet wurde.
Ergebnisse
Es wurden 205 MRT-Untersuchungen von 150 Patienten einbezogen. Die Genauigkeit von ChatGPT bei der Bestimmung der LI-RADS-Kategorien war schlecht (53% und 44% in unstrukturierten und strukturierten Berichten). Die Übereinstimmung mit der Ground Truth war höher (k = 0,51 und k = 0,44), der mittlere absolute Fehler in den LI-RADS-Werten war geringer (0,5 ± 0,5 gegenüber 0,6 ± 0,7, p <0,05). Die Test-Retest-Reliabilität war in unstrukturierten Befunden höher als in strukturierten Befunden (ICC = 0,81 gegenüber 0,50), obwohl strukturierte Berichte die erforderlichen Bildmerkmale signifikant häufiger enthielten (Chi-Quadrat-Test, p <0,05).
Schlussfolgerungen
ChatGPT erreichte nur eine geringe Genauigkeit, wenn es darum gebeten wurde, LI-RADS-Werte aus Leber-MRT-Befunden zu bestimmen. Die überlegene Genauigkeit und Konsistenz in Freitext-Berichten könnte mit dem Schulungsprozess von ChatGPT zusammenhängen.