ChatGPT besteht Radiologen-Prüfung: Die gängige Version GPT 3.5 offenbart allerdings Lücken

ChatGPT, die Software die mit Hilfe von künstlicher Intelligenz Texte erzeugt, wenn sie mit Stichworten gefüttert wird, hat jetzt eine eine Prüfung der Radiological Society of North America in Oak Brook im Bundesstaat Illinois bestanden. Das Kunststück gelang der Version GPT.4, die erst im März 2023 in begrenzter Form für zahlende Nutzer freigegeben worden war. Sie bestand die Prüfung mit 81 Prozent richtigen Anworten. Nach der gängigen Praxis des Royal College in Kanada hätten 70 Prozent gereicht. Die derzeit am häufigsten genutzte Software mit dem Kürzel GPT-3.5 schaffte die Prüfung dagegen nicht. Sie kam auf 69 Prozent.

Überraschend gute, aber auch falsche Antworten

„Wir waren überrascht von den großenteils genauen und selbstbewussten Antworten von ChatGPT auf einige herausfordernde radiologische Fragen, aber dann ebenso überrascht von einigen sehr unlogischen und ungenauen Behauptungen“, so Prüfer Rajesh Bhayana, Radiologe am Toronto General Hospital, und warnt: „Es wäre gefährlich, sich nur auf ChatGPT zu verlassen.“ Zumal ChatGPT und ähnliche Chatbots in Suchmaschinen wie Google und Bing integriert würden, die Ärzte und Patienten verwenden, um nach medizinischen Informationen zu suchen

Deutliche Verbesserungen

Doch das kann sich noch ändern. Die Verbesserungen von Version 3.5 auf 4.0 waren deutlich. Bei den 150 Multiple-Choice-Fragen ging es um den Abruf von Wissen und das Grundverständnis, um Anwendungen, Analysen und Synthesen sowie Beschreibungen der Bildgebungsbefunde, klinisches Management, Berechnung und Klassifikationen.

Probleme bei kniffligen Fragen

Die Version 3.5 schnitt bei reinen Wissensfragen mit 84 Prozent richtigen Antworten (51 von 61) am besten ab, hatte aber Probleme mit Fragen, die das Denken höherer Ordnung betrafen (60 Prozent). Genauer gesagt hatte die Software Probleme bei der Beschreibung der Bildgebungsbefunden (61 Prozent richtig), der Berechnung und Klassifizierung (25 Prozent) und der Anwendung von Konzepten (30 Prozent).

Keine Verbesserung bei Wissensfragen

Die Version 4.0 schnitt bei reinen Wissensfragen nicht besser ab als 3.5, machte aber Punkte gut bei kniffligeren Aufgaben. „Die Verwendung großer Sprachmodule wie ChatGPT explodiert und wird noch zunehmen“, meint Bhayana. Dann jedenfalls, wenn sie noch besser werden. Doch dann müsste die Software auch Plausibilitätsprüfungen vornehmen können, denn sie sucht einfach das gesamte Internet an Hand von Stichworten ab. Ohne Zweifel findet sich dort viel Unsinn.

via

Teile den Artikel oder unterstütze uns mit einer Spende.