ChatGPT halluziniert immer mehr und OpenAI weiß nicht, warum

OpenAIs neueste KI-Modelle werden zwar immer besser, halluzinieren aber deutlich häufiger als ihre Vorgänger. Bei bestimmten Tests erreichten die "Reasoning"-Systeme GPT o3 und o4-mini Fehlerraten von bis zu 79% - ein Trend, der selbst die Entwickler rätseln lässt.

Witold Pryjda, 07.05.2025 14:01 Uhr

KI wird klüger, aber auch unzuverlässiger

ChatGPT und andere KI-Systeme machen zunehmend Fehler, obwohl sie eigentlich immer leistungsfähiger werden, so das besorgniserregende Zwischenfazit der Entwickler. Laut internen Tests von OpenAI halluziniert das Flaggschiff-Modell GPT o3 bei einem Drittel aller Fragen zu öffentlichen Personen - mehr als doppelt so häufig wie sein Vorgänger o1. Das kompaktere Modell 04-mini schneidet mit einer Fehlerrate von 48 Prozent sogar noch schlechter ab.

Bei allgemeineren Wissensfragen im sogenannten SimpleQA-Benchmark steigen die Halluzinationsraten dramatisch auf 51 Prozent für o3 und sogar 79 Prozent für o4-mini. Diese Zahlen sind besonders beunruhigend, da die neueren Modelle eigentlich mit verbesserter Logik und Denkfähigkeit werben.

Spartipp: Mai-Abverkauf und Muttertags-Deals bei Media Markt (Anzeige)

Das Paradox der "Reasoning"-Modelle

Eine mögliche Erklärung für dieses Phänomen liegt in der Funktionsweise der neuen "Reasoning"-Modelle. Im Gegensatz zu älteren Systemen, die hauptsächlich auf statistische Wahrscheinlichkeiten setzen, versuchen diese Modelle, komplexe Probleme in logische Einzelschritte zu zerlegen - ähnlich wie Menschen denken würden.

Wie die New York Times berichtet, könnte genau dieser schrittweise Denkprozess zum Problem werden. "Die neuesten und leistungsstärksten Technologien - sogenannte Reasoning-Systeme von Unternehmen wie OpenAI, Google und dem chinesischen Start-up DeepSeek - erzeugen mehr Fehler, nicht weniger", erklärt die Zeitung. Bei jedem Denkschritt könnte das System neue Fehler einbauen, die sich dann im Laufe des Prozesses verstärken.

OpenAI selbst gibt an, dass weitere Forschung nötig sei, um die genauen Ursachen zu verstehen. "Halluzinationen sind nicht grundsätzlich häufiger in Reasoning-Modellen, obwohl wir aktiv daran arbeiten, die höheren Halluzinationsraten, die wir bei o3 und o4-mini gesehen haben, zu reduzieren", erklärte OpenAI-Sprecherin Gaby Raila gegenüber der New York Times.

Die Konsequenzen dieser Entwicklung sind weitreichend. KI-Systeme werden zunehmend in Bereichen wie Bildung, Gesundheitswesen und Behörden eingesetzt - Umgebungen, in denen Fehler schwerwiegende Folgen haben können. Bereits jetzt gibt es Berichte von Anwälten, die durch ChatGPT generierte, aber nicht existierende Gerichtsurteile zitiert haben.

Völlig neu ist dieses Phänomen in der Geschichte der künstlichen Intelligenz nicht. Bereits in den 1980er Jahren beobachteten Forscher den sogenannten "Eliza-Effekt", benannt nach einem frühen Chatbot, bei dem Menschen dazu neigten, dem System mehr Verständnis zuzuschreiben, als es tatsächlich besaß. Die heutigen Halluzinationsprobleme könnten als moderne Variante dieses Effekts betrachtet werden - nur dass die Systeme selbst nun "glauben", mehr zu wissen, als sie wirklich wissen.

Das Dilemma der KI-Nutzung

Das wachsende Halluzinationsproblem stellt die praktische Nutzbarkeit von KI-Systemen grundlegend infrage. "Man kann nicht behaupten, Zeit und Mühe zu sparen, wenn man genauso lange damit verbringen muss, alles zu überprüfen", fasst ein Branchenexperte das Dilemma zusammen. Die Vorteile der KI-Automatisierung werden zunichtegemacht, wenn jede Ausgabe akribisch überprüft werden muss.

Was haltet ihr von dieser Entwicklung? Nutzt ihr KI-Tools trotz dieser Unzuverlässigkeit, und wie geht ihr mit möglichen Fehlinformationen um? Teilt eure Erfahrungen und Strategien in den Kommentaren!

Zusammenfassung

Neue KI-Modelle von OpenAI halluzinieren häufiger als Vorgänger
GPT o3 und o4-mini erreichen Fehlerraten von bis zu 79 Prozent
'Reasoning'-Systeme zerlegen Probleme in logische Einzelschritte
Schrittweiser Denkprozess könnte zu Fehlerverstärkung führen
OpenAI arbeitet an Reduzierung der höheren Halluzinationsraten
Einsatz fehleranfälliger KI in kritischen Bereichen ist riskant
Überprüfungsaufwand stellt Nutzen der KI-Automatisierung infrage

Siehe auch:

Thema:

OpenAI

Kommentieren66

Hinweis einsenden

Weitere Nachrichten zum Thema OpenAI schenkt einer ganzen Nation Premium-Zugang zu ChatGPTChatGPT: KI 'erkennt' Affäre in Kaffeesatz - Ehefrau reicht Scheidung einOpenAI eröffnet erstes Deutschlandbüro in MünchenOpenAI muss Update zurückziehen, weil ChatGPT zu viel schleimteChatGPT: Freundlichkeit von KI-Nutzern verursacht Millionen-KostenChatGPT 'hilft' bei Steuerbetrug: KI erstellt täuschend echte Dokumente