Google Veo hat vor einem knappen halben Jahr das Erstellen von Videos mit KI noch einmal deutlich weitergebracht. Während bis dahin z.B. in OpenAI Sora keine Sprache möglich war, hat Google das eingebaut. Im Folgenden möchte die beeindruckenden Ergebnisse teilen, die auf einer Zugfahrt mit meinem Sohn (9) entstanden sind.

Bild: Gemini
Sprache in KI-Videos – läuft mit Katzen!
Meine ganze Familie liebt Katzen – daher ist es wenig überraschend, dass Katzen eine Hauptrolle bei den Videos spielen, die mein Sohn erstellt haben wollte. Ich habe den Pro Account von Google Gemini und Google Veo 3.1 benutzt.
Katzen-Videoprompt 1:
Erstelle ein fotorealistisches Video, bei dem eine Katze über mehrere Züge springt und sich dann eine Brezel holt und sie am Bahnsteig isst.
Der Text hört sich natürlich nicht natürlich an, es fehlt der Bahnhofs-Lärm im Hintergrund. Zudem ist der Text natürlich nicht besonders einfallsreich. Allerdings ist es ein komplett anderes Niveau als das alte Sora-Modell von ChatGPT, das in KI-Zeitrechnung vor einer halben Ewigkeit veröffentlicht wurde: im Dezember 2024 😱. Das Video, das ich mit dem gleichen Prompt dort erstellt habe, ist deutlich weniger beeindruckend:
Zur Ehrenrettung von OpenAI muss man an dieser Stelle sagen, dass das nicht mehr das neueste Modell ist – auf das habe ich aktuell keinen Zugriff.
Im zweiten Video wird es deutlich beeindruckender!
Google Veo kann auch Sprache, richtig gut!
Deutlich beeindruckender ist das mit der Sprache bei der zweiten Video-Idee, die mein Sohn hatte. Hier ging es um eine rappende Katze im Bordbistro. Während das Interieur der deutschen Bahn nciht ganz getroffen wird, sind diverse andere schwierige Details richtig gut getroffen:
- die Landschaft, die vorüberzieht, bewegt sich sehr realistisch
- im Fenster sind Reflektionen des Innenraums zu sehen
- die Lippenbewegungen sind passend zur Tonspur
- die Gestik der rappenden Katze entspricht der, die man von einem Rapper erwarten würde
- in der Sonnenbrille der Katze spiegelt sich auch der Innenbereich
Katzen-Videoprompt 2:
Erstelle ein Video einer Hip Hop Katze, die im Bordrestaurant der Deutschen Bahn rappt
Google an der Spitze der KI-Content-Erstellung?
Manche, auch ich, waren in den letzten Jahren von der Innovationskraft von Google mehr und mehr enttäuscht – spannende Projekte wie Google Cardboard wurden abgestoßen, wenn auch immerhin als Open Source Angebot. Bis heute wundert mich, dass es kein Kanban-Board wie MS Planner bei Google gibt, da das eine natürliche Ergänzung der Produktivitäts-Tools ist.
Dieses Jahr sieht das aber ganz anders aus, diverse Dienste sind die besten am Markt:
- Nano Banana ist aktuell eine der besten KIs zur Bilderzeugung
- Gemini 3 ist eines der führenden KI-Modelle
- NotebookLM hat die Welt des Lernens verändert.
