MotionStream demonstriert Echtzeitsteuerung bei KI-gestützter Videoproduktion
Mit der neuen experimentellen Technologie MotionStream können Videocreator*innen bereits während der Erstellung mit KI-generierten Videos interagieren und dabei die Bewegung von Objekten steuern sowie Kamerawinkel in Echtzeit ändern und das ganz einfach per Cursor und Schieberegler. Dank geringerer Latenz und mehr Kontrolle ermöglicht MotionStream eine neue Dimension intuitiver Exploration von KI-Videos für kreative Arbeitsabläufe.
Forscher*innen von Adobe haben ihre Arbeit zu MotionStream veröffentlicht und bieten der Öffentlichkeit nun eine Vorschau an.
„Ich sehe MotionStream als einen großen Wandel in der Art und Weise, wie Menschen in Zukunft Videos steuern könnten“, sagt Eli Shechtman, Senior Principal Scientist und einer der Forscher*innen hinter MotionStream.
Das MotionStream-Erlebnis – schnell und präzise, mit integrierten natürlichen Abläufen
Bei den derzeitigen generativen KI-Videotools geben Nutzer*innen einen Prompt ein, bestätigen und warten dann mehrere Sekunden oder sogar eine Minute, bis das Tool einen Videoclip erstellt oder bearbeitet hat. Bei jeder neuen Generierung muss man von vorne beginnen, was es schwierig macht, Details zu steuern und mit Änderungen zu experimentieren. Ganz zu schweigen davon, dass das wiederholte Anhalten, Warten und Neuanfangen den kreativen Fluss unterbricht.
MotionStream löst diese Herausforderungen durch sofortiges visuelles Feedback. Die Creator*innen können das Video während der Erstellung steuern und verfeinern. Sie beginnen mit einem Prompt-Text und können dann durch Klicken und Ziehen Objekte bewegen und die Kameraposition anpassen. Die Nutzer*innen können sogar festlegen, welche Elemente sich bewegen und welche statisch bleiben sollen. Die Ergebnisse ihrer Bearbeitungen werden in Echtzeit angezeigt.
„Es ist immer wieder ein besonderes Vergnügen, mit dieser Technologie zu arbeiten und zu sehen, was sie alles kann“, sagt Richard Zhang, leitender Forschungswissenschaftler und Mitarbeiter bei MotionStream. „Man kann zum Beispiel Wasser hin und her schwappen lassen oder einen Gegenstand in 3D drehen, indem man zwei Kontrollpunkte gleichzeitig verschiebt.“
Das leistungsstarke Modell hinter MotionStream fängt auch die Physik und natürlichen Bewegungen in der Welt ein. „Genau hier liegt ein Großteil der Magie – in den sekundären Effekten, die manuell nur sehr schwer zu steuern sind. Wenn man beispielsweise einen Elefanten bewegen möchte, kann man zwar auf seinen Körper klicken und ihn verschieben, aber es ist sehr aufwendig, diese Bewegungen manuell natürlich aussehen zu lassen. Derzeit sind dafür Fachkenntnisse und spezielle Software erforderlich, um das Rigging, die Animation oder die Keyframes zu erstellen – ein Prozess, der je nach Umfang in der Regel Stunden, wenn nicht sogar Tage dauert. Stattdessen simuliert der MotionStream zugrunde liegende Videogenerator im Grunde die Welt in Echtzeit. So bewegen sich die Beine des Elefanten natürlich, und die Ohren flattern auf natürliche Weise, während sich der Elefant bewegt. Das Modell vermittelt euch Wissen über die Welt und ihr könnt mit ihr interagieren“, sagt Shechtman.
Ein neues Paradigma eröffnet neue Bearbeitungsmöglichkeiten
Der Ansatz hinter MotionStream stellt ein neues Paradigma für generative Videos dar: Er markiert den Übergang vom verzögerten Rendering zur Echtzeit-Interaktion und bietet Kreativprofis damit mehr Geschwindigkeit, Reaktionsfähigkeit und Kontrolle. Shechtman ist sogar der Ansicht, dass diese Technologie die Art und Weise verändern könnte, wie Bilder in Zukunft bearbeitet werden.
„Sobald Videos interaktiv werden, könnte die Arbeitsfläche ein ständig laufendes Video sein. Wenn man mit ihm interagiert, sieht man, wie sich das Video fließend in die von einem festgelegte Bearbeitung verwandelt. Man kann den Übergang beobachten und ihn sogar zwischendurch anhalten, wenn einem das Zwischenergebnis gefällt. Das birgt großes Potenzial sowohl für Bilder als auch für Videos.“
Die Forschung hinter MotionStream
MotionStream entstand aus jahrelanger Arbeit bei Adobe Research, wo das Team dazu beiträgt, Spitzentechnologie voranzutreiben und die gewonnenen Erkenntnisse anschließend in neue Werkzeuge für Kreative umzusetzen. Im Falle von MotionStream begannen die ersten Arbeiten mit der Bildgenerierung.
„Früher war die Bildgenerierung sehr langsam, also haben wir eine Technologie entwickelt, um sie zu beschleunigen. Anstatt Sekundenlang auf ein Bild zu warten, konnte man das Ergebnis in Echtzeit erhalten. Diese Innovation hat auch unsere Arbeit im Bereich der Videogenerierung vorangetrieben“, sagt Zhang.
Um die KI-Videogenerierung weiter zu beschleunigen, hat das Team den Prozess zur Erstellung der Videos in einzelne Schritte unterteilt. Frühere Generierungsmodelle erstellten ein komplettes Video, bevor sie es den Nutzer*innen zur Verfügung stellten. Dabei berücksichtigte jedes Einzelbild jedes andere Bild, sodass die Zukunft von der Vergangenheit abhing, die Vergangenheit aber auch von der Zukunft. Dies trug zwar zur Qualität der Generierung bei, doch „das Universum funktioniert nicht so, dass man sowohl die Vergangenheit als auch die Zukunft kennt. Wir haben diese Einschränkung aufgehoben“, erklärt Zhang.
Die Forscher*innen entwickelten eine Methode, mit der ein Video in Teilabschnitten generiert werden kann, wobei die zukünftigen Einzelbilder des Videos ausschließlich von den bereits erstellten abhängen – ein sogenannter „autoregressiver“ Backbone. Obwohl es schwierig ist, die Generierungsqualität unter solchen kontextuellen Einschränkungen aufrechtzuerhalten, ermöglichte die Zusammenführung der Innovationen aus den vergangenen Jahren in Verbindung mit neuen Techniken dem Modell, auch unter strengeren Vorgaben, eine hohe Qualität beizubehalten.
Während die Nutzer*innen sich das erste Video ansahen, erzeugte das Tool im Hintergrund das zweite Video, sodass den Nutzer*innen das generierte Video in Echtzeit per Streaming angezeigt werden konnte.
„Der logische nächste Schritt, nachdem wir damit begonnen hatten, Videos in einzelne Segmente zu zerlegen“, sagt Zhang, „war es, die Nutzer*innen während der Erstellung des Videos um Feedback zu bitten. Das hat uns zu MotionStream geführt. Es ist das Ergebnis langjähriger Forschungsarbeit.“
Die Zukunft KI-gestützter Kreativtools
Mit Innovationen wie MotionStream erweitern die Forscher von Adobe die Grenzen der KI immer weiter und entwickeln gleichzeitig schnellere, reaktionsfähigere Tools, die neue Maßstäbe für Kreativprofis setzen.
Möchtet ihr wissen, was sonst noch bei Adobe Research passiert? Hier findet ihr unsere neuesten Nachrichten.