Das KI-Sprachmodell: kein Wissen drin!

Das große Problem mit jedem KI-Sprachmodell ist, dass es rein statistisch arbeitet – es „weiß“ in Wirklichkeit wenig. KI-Sprachmodelle sind übrigens auch nur eine kleine Nische der künstlichen Intelligenz. Alle KI-Sprachmodelle nutzen lediglich statistische Wahrscheinlichkeiten, um zu antworten. Die Basis dafür ist das Wissen eines großen Teils des Internets, wodurch die Modelle sehr gut die im Fragenkontext richtigen Wörter vorhersagen können. Die Wörter (eigentlich Silben/Token), die am wahrscheinlichsten sind, werden ausgegeben. Oft, bei Themen, die im Internet ausführlich und einheitlich beschrieben werden, klappt das sehr gut: die Relativitätstheorie hat Einstein aufgestellt. Das gibt jedes KI-Modell richtig wieder, da die allermeisten Quellen eindeutig sind. Wenn etwas nicht sicher ist, sieht das ganz anders aus. Dann zeigen sich die Grenzen der KI-Sprachmodelle.

Artikel-Updates:

24.03.26: Update der Vergleichsdaten von Humanity’s Last Exam

03.11.25

Ergänzung um die allgemein schlechten KI-Ergebnisse bei „Humanity’s Last Exam“.

Empfehlung zum Einsatz von KI-Sprachmodellen.

Immer kritisch bleiben: KI-Sprachmodelle wissen eigentlich Nichts und haben auch kein Verständnis, egal wie selbstbewusst sie auftreten. KI-Sprachmodelle nutzen nur statistische Wortzusammenhänge, die sie durch ihre Trainingsdaten erlernt haben. Bild: ChatGPT

Der Begriff „Halli Galli“ im KI-Sprachmodell

In meinem Sprachgebrauch bedeutet „Halli Galli“ so etwas wie „Lärm“, und so kam es auch zu dem Test für KI-Sprachmodelle, den ich hier beschreibe. Laut dem Duden schreibt man es übrigens korrekt Halligalli – das ist aber für diesen Artikel bzw. Test nicht wichtig.

Halligalli, Hully-Gully, das
– fröhliches, lärmendes Treiben; ausgelassene Stimmung
duden.de, der Begriff wurde 2004 aufgenommen

Als KI-Sprachmodelle noch neu waren, war ich auf einer Dienstreise in meinem Hotelzimmer, und war genervt vom Lärm im Gang, der für meinen Geschmack sehr früh begann. Ich schrieb meiner Frau: „Da ist leider ganz schön viel Halli Galli im Treppenhaus.“ Da KI-Sprachmodelle so neu waren, wollte ich testen, ob ChatGPT mir den Begriff erklären kann. Wie gewohnt antwortete das KI-Sprachmodell sehr selbstsicher. Als ich später diese Erklärung meiner Frau schicken wollte, machte ich der Einfachheit halber die Anfrage noch einmal.

Ich war sehr überrascht, dass die zweite Antwort des gleichen KI-Sprachmodells mit der ersten Antwort sehr wenig zu tun hatte. Seither ist „Halli Galli“ mein Standardtest für KI-Modelle, um herauszufinden, wie sie mit Unsicherheiten umgehen. Leider antworten bis heute alle getesteten KI-Sprachmodelle sehr selbstsicher mit einer der Varianten, die im Internet kursieren. Ich habe leider noch kein Modell erlebt, das mir mitgeteilt hat, dass es sich unsicher ist.

Ein paar Antwortvarianten der bekannten KI-Sprachmodelle ChatGPT 5, Claude Sonnet, Gemini 2.5 Pro und Llama 4. Das genutzte Tool ist Chathub in der Variante der Extension (ein wichtiger Unterschied!) — Ein paar Antwortvarianten der bekannten KI-Sprachmodelle ChatGPT 5, Claude Sonnet, Gemini 2.5 Pro und Llama 4. Das genutzte Tool ist Chathub (in der Variante der Extension, das ist ein wichtiger Unterschied!)

Warum ist das wichtig für die Nutzung?

Ich mag diesen Test sehr, weil er sehr deutlich zeigt, dass die KI-Sprachmodelle wenig „wissen“, auch wenn die Antworten immer sehr selbstbewusst präsentiert werden, als wüsste das Gegenüber genau, wovon es redet. Nach dem Erscheinen von ChatGPT 5 habe ich dieses neue, „noch bessere“ KI-Sprachmodell direkt mit Halli-Galli getestet und das gewohnte Ergebnis erhalten. Ich habe die zwei Antworten aus zwei separaten Chats (keine Historie) in unterschiedliche Dokumente kopiert. Dann habe ich ChatGPT 5 diese Antworten vergleichen lassen:

GPT-5 analysiert zwei Antworten von GPT-5 zum Begriff Halli Halli. Die Antworten haben wenig miteinander zu tun. — GPT-5 analysiert zwei Antworten von GPT-5 zum Begriff Halli Halli. Die Antworten haben leider wenig miteinander zu tun. 🤷🏻

Warum macht ein KI-Sprachmodell noch Fehler?

Es ist eine Grundlage der KI-Sprachmodelle, dass sie mit möglichst viel Daten gefüttert werden, um dann auf Basis der vorhandenen Wörter in der Frage und dem bisherigen Teil der Antwort das zu schreiben, was am wahrscheinlichsten die richtige Antwort ist.

Eine Folie aus meinem Pecha Kucha Vortrag zu LLMs aus dem Herbst 2023: Es geht hier um Wortwahrscheinlichkeiten, nicht mehr und nicht weniger. So ist das auch 2025 noch. Es gibt kein Verständnis und kein Wissen in einem KI-Sprachmodell. — Teil einer Folie aus meinem Pecha Kucha Vortrag zu LLMs aus dem Herbst 2023: Es geht bei LLMs um Wortwahrscheinlichkeiten, nicht mehr und nicht weniger. So ist das auch 2026 noch. Es gibt kein Verständnis und kein Wissen in einem KI-Sprachmodell.

Das sogenannte „Training“ eines KI-Sprachmodells bedeutet, dass es mit sehr, sehr vielen Daten lernt, welche Wortteile am häufigsten mit welchen anderen Wortteilen vorkommen. Die Basis sind z.B. Webseiten, Foreneinträge wie auf Reddit, Blogartikel, Bücher etc. Darauf folgt das „Optimieren“ des KI-Sprachmodells. Dieser Schritt führt dazu, dass die falschen Antworten weniger werden, weil dem Modell beigebracht wird, was es nicht ausgeben soll. Das können unerwünschte, politisch problematische Antworten sein. Es kann sich aber z.B. auch um die richtige Antwort auf die Frage „Wieviele r sind im Wort Strawberry“ handeln – ein klassischer Test, um die Qualität eines KI-Sprachmodells zu testen.

Gemini 2.5 Pro bekommt den Strawberry-Test hin.
Weil es die Antwort aus einem Youtube-Video zum Thema ausgelesen hat, das steht in der Quelle. 😉

Insbesondere beim Training von ChatGPT sind Unmengen von Mitarbeitern in Niedriglohnländern wie Kenia damit beschäftigt worden, das zugehörige KI-Sprachmodell zu „optimieren“:

Auszug aus einem Time-Artikel von 2023 zum Training für das KI-Sprachmodell ChatGPT — Auszug aus einem Time-Artikel von 2023 zum Optimieren von ChatGPT

Wie die Modelle tatsächlich im Detail funktionieren, ist bisher unklar – selbst das bekannte Genie Stephen Wolfram kann es nicht anders zusammenfassen, als dass es Zufall ist. Ein sehr schöner Zufall – die Tools sind in vielen Fällen sehr nützlich. Aber intelligent sind sie eben nicht, nur sehr beeindruckende Zufallsgeneratoren!

Auszug aus einem Artikel von Stephen Wolfram darüber, wie ein KI-Sprachmodell funktioniert. Keine leichte Lektüre! — Auszug aus einem Artikel von Stephen Wolfram über die Funktionsweise von LLMs.
Vorsicht: keine leichte Lektüre!

Expertenwissen? Von wegen!

Eine Initiative, die die Kompetenz von KI-Sprachmodellen misst, ist der gezielt für KI-Modelle entworfene Test „Humanity’s Last Exam“, das zugegebenermaßen sehr schwierige Fragen enthält. Aktuell wird aber auch oft von den KI-Anbietern propagiert, dass die KI-Sprachmodelle die Kompetenz von Doktoranden erreicht haben sollen. Da finde ich es schon irritierend, wenn bei den neuesten Modellen die Skala bei knapp über 45% Anteil an richtigen Antworten endet:

Wenn die Skala bei 45% Anteil an richtigen Antworten endet, ist das gar nicht beeindruckend.Quelle: Humanity's Last Exam — Wenn die Skala bei 45% Anteil an richtigen Antworten endet, ist das gar nicht beeindruckend.Quelle: Humanity’s Last Exam

Und was kann so ein KI-Sprachmodell dann?

Ich sehe jedes KI-Sprachmodell als guten, motivierten Werkstudenten: er gibt sich echt Mühe, nutzt alle Quellen, die er findet, hat aber nicht viel Erfahrung und kennt sich nur oberflächlich aus. Alles, was er als Ergebnis liefert, sollte man gegenprüfen, sofern möglich. Ein skalierter Einsatz sollte nur da erfolgen, wo auch menschliche Fehler akzeptiert werden würde. Das ist ein gesunder, vernünftiger Umgang mit KI-Sprachmodellen!

KI-Sprachmodelle sind eher Werkstudenten als Doktoranden. Bild: ChatGPT

Lust auf Austausch?

Ich tausche mich immer gerne zum Thema KI aus! Mehr Infos zu meinem Ansatz beim Training von Mitarbeitern und Beratung findest Du auf der Homepage!