Skywork stellt SkyReels-V2 vor: Open-Source-KI-Videomodell für unbegrenzte Videolängen
In Kürze Das Open-Source-KI-Videomodell SkyReels-V2 von Skywork ermöglicht die Generierung von Videos unbegrenzter Länge über einen Browser und unterstützt verschiedene Anwendungen wie die Erstellung von Geschichten und die Videosynthese mehrerer Themen.
Plattform, die auf KI-Arbeitsplatzagenten spezialisiert ist, Himmelsarbeit gab bekannt, dass sein KI-Videoerstellungstool Skyreels hat SkyReels-V2 vorgestellt, ein Open-Source-KI-Videomodell, das kostenlos Videos unbegrenzter Länge direkt aus einem Webbrowser generieren kann. Die Gewichte und der Inferenzcode des Modells sind jetzt öffentlich auf GitHub verfügbar. SkyReels-V2 verwendet ein Diffusion-Forcing-Framework, das multimodale Large Language Models (MLLM), mehrstufiges Vortraining, Reinforcement Learning und Diffusion-Forcing-Techniken integriert, um die Leistung umfassend zu optimieren. Dieses Modell unterstützt eine Vielzahl praktischer Anwendungen, darunter Story-Generierung, Bild-zu-Video-Synthese, Kameraführung und die Erstellung konsistenter Videos mit mehreren Motiven durch das Skyreels-A2-System.
Das Diffusion Forcing Framework ermöglicht die Generierung von Videos mit unbegrenzter Dauer. SkyReels-V2 unterstützt sowohl Text-zu-Video- (T2V) als auch Bild-zu-Video- (I2V) Generierungsaufgaben und kann Inferenzen sowohl synchron als auch asynchron ausführen. Beispielskripte zur Demonstration der Generierung langer Videos sind verfügbar.
Eine wichtige Komponente von SkyReels-V2 ist SkyCaptioner-V1, ein Video-Untertitelungsmodell zur Datenannotation. Dieses Modell wird anhand der Untertitelergebnisse des Basismodells Qwen2.5-VL-72B-Instruct und zusätzlicher Sub-Experten-Untertiteler trainiert. Dabei wird ein sorgfältig kuratierter Datensatz von rund zwei Millionen ausgewogenen Videos verwendet, um die Qualität der Annotation und die konzeptionelle Ausgewogenheit sicherzustellen.
SkyCaptioner-V1 basiert auf der Qwen2.5-VL-7B-Instruct-Grundlage und ist für eine verbesserte domänenspezifische Videountertitelungsleistung optimiert. Auswertungen anhand eines Testsatzes von 1,000 Beispielen zeigen, dass SkyCaptioner-V1 eine höhere durchschnittliche Genauigkeit als modernste Basismodelle erreicht und insbesondere in aufnahmebezogenen Bereichen hervorragende Ergebnisse liefert.
Aufbauend auf früheren Erfolgen mit großen Sprachmodellen konzentrierten sich die Entwickler auf die Verbesserung der generativen Videoqualität durch bestärkendes Lernen und gingen dabei auf festgestellte Einschränkungen ein, wie etwa Schwierigkeiten mit großen, verformbaren Bewegungen und gelegentlichen physikalischen Inkonsistenzen in generierten Videos.
Zur Leistungssteigerung wurden zwei aufeinanderfolgende Phasen der überwachten Feinabstimmung (SFT) mit Auflösungen von 540p bzw. 720p implementiert. Die erste SFT-Phase erfolgte unmittelbar nach dem Vortraining und vor der Phase des bestärkenden Lernens. Diese erste SFT-Phase dient als konzeptioneller Gleichgewichtstrainer. Sie verfeinert die Ergebnisse des Vortrainings des Basismodells, das nur Videodaten mit 24 Bildern pro Sekunde (fps) verwendete, und vereinfacht die Architektur durch das Entfernen eingebetteter FPS-Komponenten.
Was ist SkyReels?
SkyReels ist eine Videoerstellungsplattform mit künstlicher Intelligenz, die es Nutzern ermöglicht, Kurzfilme, Animationen und Videos durch die Kombination von Textansagen, Bildern und Audioeingaben zu erstellen. Die Plattform bietet eine breite Palette an Funktionen, darunter KI-generierte Charaktere, Storyboard-Tools, Lippensynchronisationsfunktionen, Musikkomposition und Videobearbeitung, die alle den Prozess der Inhaltserstellung optimieren. Sie umfasst außerdem fortschrittliche KI-Modelle wie SkyReels-V1 und SkyReels-V2.
SkyReels-V1 ist ein Open-Source-Video-Grundmodell, das sich auf die menschenzentrierte Videoproduktion für kurze Dramen konzentriert und sowohl Text-zu-Video und Bild-zu-Video-Generierung, während subtile Gesichtsausdrücke präzise wiedergegeben und Bilder in Kinoqualität geliefert werden.
Haftungsausschluss: Der Inhalt dieses Artikels gibt ausschließlich die Meinung des Autors wieder und repräsentiert nicht die Plattform in irgendeiner Form. Dieser Artikel ist nicht dazu gedacht, als Referenz für Investitionsentscheidungen zu dienen.
Das könnte Ihnen auch gefallen
Ethereum Foundation veröffentlicht Bericht „Billionen-Dollar-Sicherheit“ und identifiziert Bereiche, in denen das Wachstum von Ethereum verbessert we
In Kürze Die Ethereum Foundation hat die Initiative „Trillion Dollar Security“ ins Leben gerufen, um kritische Sicherheitsherausforderungen in sechs Kernbereichen des Ethereum-Ökosystems anzugehen. Ziel ist es, das Netzwerk für eine großflächige weltweite Einführung zu stärken und die Community zur Zusammenarbeit einzuladen, um seine Zukunft zu gestalten.

Datagram startet Alpha-Testnetz für DePIN-Interoperabilität
In Kürze Datagram hat sein Avalanche-basiertes Alpha-Testnetz gestartet, um die DePIN-Interoperabilität zu unterstützen. Teilnehmer können damit Knoten ausführen, Token-Belohnungen verdienen und durch Betriebszeit und Empfehlungen zur Entwicklung einer dezentralen Infrastruktur beitragen.

Astar Network integriert Chainlink CCIP und übernimmt den SuperchainERC20-Standard für ASTR, um die Interoperabilität zu verbessern
In Kürze Der ASTR-Token ist der erste Token-Vertrag, der sowohl über ERC-7802 als auch über Chainlink CCIP in die Superchain integriert ist und sichere, standardisierte Cross-Chain-Übertragungen innerhalb der OP-Superchain ohne Wrapped Assets oder Liquiditätspools ermöglicht.

Genspark stellt KI-Browser mit autonomem Browsen, integriertem KI-Agenten und MCP Store vor
In Kürze Genspark hat einen KI-gestützten Browser auf den Markt gebracht, der Aufgaben wie Recherche und Inhaltsorganisation automatisiert, das Browsen mit Echtzeit-KI-Tools und Werbeblockern verbessert und sich in mehrere Apps integrieren lässt, um die Arbeitsabläufe der Benutzer zu optimieren.

Im Trend
MehrKrypto Preise
Mehr








