KI-Bildmodelle: ein Vergleich

KI-Bildmodelle haben wahrscheinlich im Bereich des Designs noch mehr Veränderung erzeugt als die KI-Sprachmodelle. Inzwischen ist es sehr leicht, Bilder für nahezu jeden Zweck zu erstellen. Ethisch bringt das Probleme mit sich, aber das ist den KI-Bildanbietern wie auch den Konsumenten leider nicht sehr wichtig. Hier geht es aber um etwas anderes – um den aktuellen Stand der Bilderzeugung mit Künstlicher Intelligenz.

Wie unterscheiden sich die verschiedenen KI-Bildmodelle? Bild: Gemini — Wie unterscheiden sich die verschiedenen KI-Modelle? Bild: Gemini

Überblick der wichtigsten KI-Bildmodelle

Ich habe mich bei meinem Test an Simon Willison orientiert, der mit einem fahrradfahrenden Pelikan testet, wie gut KI-Bildmodelle sind. Das wichtige Detail seinen Test ist, dass er die KI das Bild als SVG (Scalable Vector Graphik) erzeugen lässt. Den Originalvergleich findet man im Blog von Simon Willison. Dann muss die KI überlegen, wie die einzelnen Punkte eines Bilds positioniert und verbunden werden müssen, um ein Bild zu ergeben. Wie sich gezeigt, hat, ignorieren die KI-Modelle im Chatfenster meistens die Anweisung „als SVG“. Alle Bilder, die nicht Claude erstellt hat, habe ich daher mit dem folgenden Prompt erstellt:

„Erstelle mir ein fotorealistisches Bild von einem Pelikan auf einem Fahrrad“
Prompt für die folgenden Bilder – außer bei Claude, das kann das sowieso nicht.

Alle Bilder wurden in kostenlosen Accounts erstellt, nur bei Midjourney ist das nicht möglich, dafür muss man immer bezahlen.

Claude ist keines der „richtigen“ KI-Bildmodelle

Wir fangen an mit Claude, weil Claude nur SVG-Grafiken erstellen kann. Hier sieht man also, welchen Stil die Testbilder eigentlich haben sollten:

Ein SVG besteht nur aus Linien und Flächen. Etwas anderes kann Claude erst gar nicht. Bild: Claude

Für Bilder, die man in Vorträgen oder Blogartikeln nutzen will, ist Claude also nur sehr eingeschränkt sinnvoll.

Gemini

Gemini ist eines der besten Modelle aktuell – das KI-Bildmodell dahinter heißt „Nano Banana“. Wie man sieht, ist es bei fotorealistischen Bildern sehr gut. Ich nutze primär Gemini für die Erzeugung von Bildern und bin sehr zufrieden damit.

ChatGPT

ChatGPT war eine Weile eher schwächer unterwegs als Gemini, hat aber wieder aufgeholt. Meinem Eindruck nach macht es kaum einen Unterschied, welches Modell man benutzt, wenn man von NIschenanwendungen wie Fotomanipulation absieht.

Copilot

Copilot nutzt in der Regel die gleichen KI-Bildmodelle wie ChatGPT – auch bei diesem Vergleich sind sich die Bilder sehr ähnlich, oder?

Perplexity

Perplexity bedient sich immer an verschiedenen Modellen. Welches KI-Bildmodell hier genutzt wurde, ist nicht klar. Das Ergebnis ist aber bis auf einen kleinen Schönheitsfehler sehr gut.

Midjourney (nur bezahlt)

Midjourney gilt als eines der Besten KI-Bildmodelle, hat mich aber in diesem Fall eher enttäuscht. Vielleicht, weil es eben keine „realistische Szene“ ist. Bei Midjourney kann man nur gegen Einwurf von kleinen Münzen Bilder erstellen, aber immerhin gibt es inzwischen eine vernünftige Webseite. Früher konnte man Bilder bei Midjourney nur über Discord, eigentlich ein Gamer-Chat-Programm, erstellen.