Keine Stars, kein Set – nur noch Prompts und Pixel.

Keine Stars, kein Set – nur noch Prompts und Pixel.

Wenn der Filmriss digital ist – und das Gesicht nur noch gerendert. KI-informierte Grafik von C. Roosen

Mit Veo 3 tritt eine künstliche Intelligenz auf die Bühne, die mehr ist als ein technisches Experiment. Sie könnte das Erzählen grundlegend verändern – und Hollywood überflüssig machen. Mit der Rückkehr des starken Satzes wird jede:r zur Regieinstanz …

Stellen Sie sich vor, Sie formulieren einen Prompt wie: „Barbie fährt im Cabrio über eine Brücke wie aus rosa Zuckerwatte, winkt einer überdimensionalen Plastik-Katze, und hinter ihr tanzen zwei Astronauten auf Rollschuhen.“

Die Szene flirrt im bonbonfarbenen Gegenlicht, weich gezeichnet durch eine nostalgische Linse – wie aus einem popkulturellen Tagtraum, surreal verspielt. Was früher Wochen an Planung, Technik und Dreharbeiten bedeutete, verwandelt ein KI-Modell heute in Sekundenschnelle in bewegte Bilder – stilsicher, stimmungsvoll, fast unheimlich präzise.

Noch bevor Sie den nächsten Satz tippen, ist das Ergebnis da: perfekt ausgeleuchtet, voller glitzernder Details, mit einem Hauch von Ironie. Ihre lose Idee wird zu einer filmischen Sequenz – mit Tiefe, Dynamik und erzählerischer Dichte. Keine Schauspieler. Kein Studio. Nur Sprache. Und ein Algorithmus, der längst gelernt hat, Geschichten zu sehen. Damit beginnt eine Zäsur: Filme entstehen nicht mehr durch Produktion, sondern durch Formulierung.

Genau das leistet Veo 3, Googles neues System zur textbasierten Videogenerierung. Es ist nicht das erste Modell seiner Art – doch es ist das erste, dessen visuelle Qualität mit klassischen Produktionen auf Augenhöhe konkurriert. Mit ihm beginnt eine Phase, in der Videoinhalte nicht mehr aufwendig produziert, sondern formuliert werden. Und das mit einer Geschwindigkeit, die bisher unvorstellbar war. Eine Perspektive, die Regisseure zittern lässt. Denn die Kamera gehorcht nur noch der Sprache: Willkommen im neuen Kino-Zeitalter.

Wenn es funktioniert, ist es überwältigend

Veo 3 ist nicht fehlerfrei. Manche Szenen wirken überzeichnet, einzelne Bewegungen künstlich, der Schnitt nicht immer stimmig. Doch wenn das Zusammenspiel gelingt – und das tut es überraschend oft –, entfaltet das Ergebnis eine Wucht, die sprachlos macht. Die generierten Videos wirken stilistisch durchdacht, visuell kraftvoll und oft erstaunlich emotional.

Man erkennt sofort, dass hier nicht mehr nur experimentiert wird. Vielmehr entstehen Bilder, die nicht mehr von real gedrehtem Material zu unterscheiden sind – jedenfalls nicht auf den ersten Blick. Der Moment, in dem man zum ersten Mal einen gelungenen Clip sieht, fühlt sich wie ein Umbruch an. Veo 3 liefert keine rohe Skizze mehr, sondern eine ästhetisch stimmige, visuell kohärente Erzählung – in unter einer Minute.

Jede:r wird zum Filmregisseur

Die Auswirkungen dieser Technologie reichen weit über die Filmindustrie hinaus. Veo 3 verändert nicht nur, wie Inhalte produziert werden – sondern auch, wer sie produzieren kann. Mit einem internetfähigen Gerät, etwas Sprachgefühl und einem kreativen Impuls kann heute jede:r zur Regisseurin oder zum Storyteller werden.

Was früher exklusiv war – durch Budgets, Ausrüstung, Teams – ist nun zugänglich. Und was bisher als „kreative Hürde“ galt, wird zum Spielraum. Bereits jetzt formieren sich neue Gruppen: Menschen, die mithilfe von KI-Tools kurze Episoden, Musikvideos, Animationen oder Werbefilme erschaffen. Die Geschwindigkeit, mit der aus einzelnen Clips längere Werke entstehen, ist bemerkenswert – ebenso wie der gestalterische Ehrgeiz dahinter.

Das Tool ersetzt eine ganze Filmcrew

Lange Zeit galt die Annahme, dass KI-generierte Videos zu befremdlich seien, zu glatt, zu offensichtlich künstlich. Diese Argumente dürften spätestens mit Veo 3 obsolet geworden sein. In den Studios von Los Angeles dürfte man das erkannt haben – auch wenn es nicht laut ausgesprochen wird. Denn die Bedrohung ist real.

Veo 3 ist nicht besser als ein großes Filmteam. Aber es ist schneller, günstiger, verfügbar. Es produziert auf Knopfdruck das, wofür andere Monate brauchen. Die Frage ist daher nicht mehr, ob sich die Filmindustrie verändern wird – sondern wie stark und wie schnell. Dass sich Drehbuchautor:innen, Regisseur:innen oder Produzent:innen angesichts dieser Entwicklung verunsichert fühlen, ist nachvollziehbar. Die Deutungshoheit über Bilder geht verloren.

Die neue Ästhetik der Fragmente

Was durch Veo 3 entsteht, ist selten ein abendfüllender Film. Stattdessen sind es Miniaturen: kurze, dichte Sequenzen von meist zwei oder drei Minuten Länge. Sie mischen Stile, Genres, visuelle Referenzen. Ein Fantasy-Element hier, ein Modeeditorial dort – dazwischen Anime-Ästhetik oder dokumentarische Anmutung.

Es geht nicht um klassische Dramaturgie, sondern um Wirkung. Die visuelle Sprache dieser Clips orientiert sich eher an TikTok oder Instagram Reels als am Kinofilm. Die Erzählformen sind fluide, collageartig, manchmal bewusst unklar. Doch gerade darin liegt eine neue Form von Freiheit: nicht das große Ganze, sondern das präzise Fragment wird zur Ausdrucksform.

Wahn oder Wirklichkeit?

So faszinierend diese Entwicklung ist – sie hat eine Kehrseite. Wenn sich Videos in dieser Qualität künstlich erzeugen lassen, wird es zunehmend schwieriger, zwischen Fiktion und Realität zu unterscheiden. Schon heute kursieren Deepfakes, die Personen in Aussagen oder Handlungen zeigen, die nie stattgefunden haben. Mit Systemen wie Veo 3 wird diese Grenze noch poröser.

Das betrifft nicht nur die Kreativbranche, sondern auch den politischen Raum, den Journalismus, die öffentliche Debatte. Was als gestalterisches Werkzeug beginnt, kann schnell zur manipulativen Technik werden. Der Ruf nach Transparenz, Wasserzeichen, Herkunftsnachweisen wird lauter – und berechtigter. Die Notwendigkeit, digitale Inhalte nachvollziehbar zu kennzeichnen, wird zur gesellschaftlichen Herausforderung.

Script ohne Set – es zählt nur der Text

Trotz aller technischer Dimensionen beginnt der Prozess bei etwas sehr Menschlichem: bei der Sprache. Veo 3 erinnert daran, wie viel gestalterisches Potenzial in einem einzigen Satz liegen kann – wenn dieser Satz in Bilder übersetzt wird. Die Präzision, mit der ein Gedanke formuliert wird, entscheidet über die Qualität des Ergebnisses.

So paradox es klingt: Inmitten hochentwickelter Technologie liegt die eigentliche Kraft beim Menschen. Nicht im Code, sondern im Ausdruck. Nicht in der Rechenleistung, sondern in der Idee. Denn bei aller Technik liegt die Magie nach wie vor im geschriebenen Wort. Ein Satz ist die Blaupause, der Impuls, die Initialzündung. Veo 3 macht aus Sprache Bilder. Und zeigt damit: Nicht die Maschine denkt – sondern der Mensch gestaltet.

Der Beginn einer neuen Ära

Veo 3 verändert die Bedingungen des Erzählens, demokratisiert Gestaltung, entgrenzt das Visuelle. Für manche mag das bedrohlich wirken. Für andere ist es eine Einladung zur Kreativität. Sicher ist: Die Regeln des Filmemachens gelten nicht mehr uneingeschränkt. Ein neuer Raum hat sich geöffnet – schneller, offener zugänglicher. Hollywood hat sein glamouröses Monopol verloren. Und der nächste Oscar? Geht vielleicht an ein neuronales Netz.