„Gefährliche Fehldiagnosen": Oxford-Studie warnt vor KI als Gesundheitsberater
**Wirkungsbereich:** Medizin & Gesundheit --- **TLDR:** Eine neue Studie der Universität Oxford mit rund 1.300 Teilnehmer:Innen zeigt, dass KI-Chatbots als medizinische Berater:Innen unzuverlässig und potenziell gefährlich sind. Obwohl die getesteten Sprachmodelle isoliert betrachtet in 94,9 % der Fälle die richtige Diagnose stellten, schnitten Nutzer:Innen mit KI-Unterstützung nicht besser ab als jene ohne – weniger als 34,5 % erkannten die richtige Erkrankung. Die Studie, publiziert in Nature Medicine, identifiziert einen fundamentalen Kommunikationsbruch zwischen Mensch und Maschine und fordert systematische Tests mit realen Nutzer:Innen, bevor KI im Gesundheitswesen eingesetzt wird. --- ## Jeder sechste Erwachsene fragt bereits die KI Stell dir vor, du wachst nachts mit starken Brustschmerzen auf. Der Hausarzt hat erst in drei Tagen einen Termin. Also tippst du deine Symptome in ChatGPT ein. Was du bekommst, klingt plausibel, professionell und beruhigend. Aber stimmt es auch? Genau diese Frage hat ein Forschungsteam der Universität Oxford jetzt in der bislang grössten kontrollierten Nutzerstudie untersucht – und die Ergebnisse sind ernüchternd. Laut einer Erhebung der Kaiser Family Foundation nutzt bereits jeder sechste Erwachsene in den USA mindestens einmal im Monat einen KI-Chatbot für Gesundheitsfragen. Die Versuchung ist nachvollziehbar: schnelle Antworten, keine Wartezeit, kein Praxisbesuch. Doch zwischen dem, was KI theoretisch kann, und dem, was in der Praxis passiert, klafft eine bedenkliche Lücke. ## Was die Oxford-Studie untersucht hat Die Studie mit dem Titel „Reliability of LLMs as medical assistants for the general public" wurde vom Oxford Internet Institute und dem Nuffield Department of Primary Care Health Sciences durchgeführt, in Zusammenarbeit mit der Benchmark-Organisation MLCommons. Sie erschien am 9. Februar 2026 im Fachjournal Nature Medicine. Rund 1.300 Teilnehmer:Innen wurden nach dem Zufallsprinzip in Gruppen aufgeteilt. Einige erhielten Unterstützung durch ein grosses Sprachmodell – getestet wurden GPT-4o von OpenAI, Llama 3 von Meta und Command R+ von Cohere. Andere nutzten herkömmliche Methoden wie Internetsuchmaschinen, eigenes Wissen oder den Gang zur Ärztin bzw. zum Arzt. Alle Teilnehmer:Innen bewerteten zehn medizinische Szenarien – vom jungen Mann mit plötzlichen Kopfschmerzen bis zur jungen Mutter mit anhaltender Erschöpfung – und sollten eine Diagnose sowie eine Handlungsempfehlung abgeben. ## Die Ergebnisse: Beeindruckend in der Theorie, problematisch in der Praxis Hier wird es spannend. Die KI-Modelle allein, also ohne menschliche Interaktion, identifizierten die korrekte Diagnose in 94,9 % der Fälle. Die richtige Handlungsempfehlung – etwa „Notaufnahme" statt „abwarten" – trafen sie in 56,3 % der Szenarien. Sobald aber echte Menschen mit denselben Modellen interagierten, brach die Leistung ein. Teilnehmer:Innen mit LLM-Unterstützung erkannten die relevante Erkrankung in weniger als 34,5 % der Fälle. Die richtige Handlungsempfehlung gaben weniger als 44,2 % ab. Das Entscheidende: Diese Werte waren **nicht besser** als in der Kontrollgruppe, die komplett ohne KI arbeitete. Das heisst im Klartext: Die KI hilft dir bei der Selbstdiagnose nicht mehr als eine Google-Suche oder dein Bauchgefühl. ## Warum funktioniert das in der Praxis nicht? Die Studie identifiziert einen Kommunikationsbruch in zwei Richtungen. Erstens wissen Nutzer:Innen oft nicht, welche Informationen für eine fundierte Diagnose relevant sind. Wenn du nicht weisst, dass deine Familiengeschichte mit Blutgerinnseln für die Einschätzung deiner Brustschmerzen entscheidend sein könnte, wirst du es dem Chatbot auch nicht mitteilen. Zweitens vermischen die KI-Modelle korrekte mit falschen Informationen auf eine Weise, die für medizinische Lai:Innen kaum zu durchschauen ist. Die Antworten klingen immer gleich kompetent – unabhängig davon, ob sie stimmen. Zudem lieferten die Modelle bei ähnlichen Fragestellungen inkonsistente Antworten und erkannten in vielen Fällen nicht, wann ein medizinischer Notfall vorlag. Ein wesentlicher Punkt: Gute Medizin ist mehr als Faktenabfrage. Ärzt:Innen hören zu, fragen gezielt nach, klären Missverständnisse und lenken das Gespräch in die richtige Richtung. Sie wissen, welche Details Patient:Innen von sich aus nicht erwähnen werden. Diese diagnostische Gesprächsführung beherrscht keine aktuelle KI zuverlässig. ## Ein bekanntes Muster Das Oxford-Ergebnis steht nicht isoliert da. Bereits frühere Untersuchungen zeigten ein ähnliches Paradox: Radiolog:Innen, die KI-Unterstützung bei der Auswertung von Röntgenbildern erhielten, schnitten nicht besser ab als ohne KI – und beide schlechter als die KI allein. Auch Ärzt:Innen, die Sprachmodelle als Diagnosehilfe nutzten, übertrafen ihre ungestützten Kolleg:Innen kaum. Das Muster ist konsistent: KI-Systeme leisten als isolierte Werkzeuge beeindruckende Arbeit. Aber sobald Menschen mit ihnen zusammenarbeiten sollen – also genau in dem Szenario, für das sie im Gesundheitswesen vorgesehen sind – bricht die Leistung zusammen. Die Mensch-Maschine-Schnittstelle ist derzeit das schwächste Glied. ## Was das für dich bedeutet Wenn du KI-Chatbots für Gesundheitsfragen nutzt, solltest du dir bewusst sein: Du bekommst Antworten, die professionell klingen, aber nicht notwendigerweise korrekt sind. Und du kannst den Unterschied nicht zuverlässig erkennen. Das ist keine abstrakte Warnung – es geht um Situationen, in denen eine falsche Einschätzung dazu führen kann, dass ein Notfall nicht erkannt wird. Die Forscher:Innen ziehen einen aufschlussreichen Vergleich: So wie neue Medikamente klinische Studien mit echten Patient:Innen durchlaufen müssen, bevor sie zugelassen werden, brauchen auch KI-Systeme im Gesundheitsbereich systematische Tests mit realen, diversen Nutzer:Innen. Benchmark-Tests allein – also standardisierte Prüfungen, bei denen die KI isoliert Aufgaben löst – reichen nicht aus, um Sicherheit im Praxiseinsatz zu gewährleisten. ## Zusammenfassung der wichtigsten Punkte - KI-Sprachmodelle erreichen isoliert betrachtet eine Diagnosegenauigkeit von 94,9 % – beeindruckend, aber irreführend für den Praxiseinsatz. - Nutzer:Innen mit KI-Unterstützung schnitten in der Oxford-Studie nicht besser ab als jene ohne KI (unter 34,5 % korrekte Diagnosen). - Der zentrale Schwachpunkt ist die Mensch-Maschine-Kommunikation: Nutzer:Innen wissen nicht, was sie fragen sollen, und die KI vermischt korrekte mit falschen Informationen. - Standardisierte Benchmark-Tests sagen wenig über die reale Leistung bei der Interaktion mit Lai:Innen aus. - Für den Gesundheitsbereich braucht es verbindliche Nutzer:Innen-Tests mit echten Menschen, bevor KI-Systeme auf die Öffentlichkeit losgelassen werden. - Im Zweifelsfall gilt: Eine Ärztin oder einen Arzt konsultieren – keinen Algorithmus. --- **Quellen (APA):** Bean, A. M., Payne, R. E., Parsons, G., Kirk, H. R., Ciro, J., Mosquera-Gómez, R., ... & Mahdi, A. (2026). Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. *Nature Medicine*. https://doi.org/10.1038/s41591-025-04074-y University of Oxford. (2026, 10. Februar). New study warns of risks in AI chatbots giving medical advice. https://www.ox.ac.uk/news/2026-02-10-new-study-warns-risks-ai-chatbots-giving-medical-advice BBC News. (2026, 10. Februar). Using AI for medical advice 'dangerous', Oxford study finds. https://www.bbc.com/news/articles/cpd8l088x2xo Presiado, M., Montero, A., Lopes, L. & Hamel, L. (2024). KFF Health Misinformation Tracking Poll: Artificial Intelligence and Health Information. Kaiser Family Foundation. --- *Disclaimer: Dieser Artikel wurde nach meinem eigenen Wissen und dann mit Recherchen mit KI (Perplexity.Ai und Gemini.Google.com) manuell zusammen gestellt und mit Deepl.com/write vereinfacht. Der Text wird dann nochmals von zwei Personen meiner Wahl gelesen und kritisch hinterfragt. Das Bild stammt von einem KI Programm (Ideogram oder Adobe Firefly) und ist selbst erstellt. Dieser Artikel ist rein edukativ und erhebt keinen Anspruch auf Vollständigkeit. Bitte melde dich, wenn Du Ungenauigkeiten feststellst, danke.* *Willst du mehr wissen? Sehr gerne komme ich auch bei Dir, bei deiner Firma, deiner ERFA Gruppe oder deinem Verband vorbei und helfe mit einem Workshop oder Input Referat.* *Lass uns gerne mal unverbindlich sprechen. Also wenn ich helfen kann, wende dich gerne an mich #fragRoger und abonnier meinen offiziellen Newsletter: www.FragRoger.social*