Skywork presenta SkyReels-V2: un modelo de video con IA de código abierto que ofrece una generación de duración ilimitada
En Resumen El modelo de video de inteligencia artificial de código abierto SkyReels-V2 de Skywork permite la generación de videos de duración ilimitada a través de un navegador y admite diversas aplicaciones como la creación de historias y la síntesis de videos de múltiples temas.
Plataforma especializada en agentes de inteligencia artificial en el lugar de trabajo. Skywork anunció que su herramienta de creación de videos con inteligencia artificial, Skyreels , ha presentado SkyReels-V2, un modelo de video de IA de código abierto capaz de generar videos de duración ilimitada directamente desde un navegador web sin costo. Los pesos y el código de inferencia del modelo ya están disponibles públicamente en GitHub. SkyReels-V2 emplea un marco de forzamiento de difusión que integra modelos de lenguajes grandes multimodales (MLLM), preentrenamiento multietapa, aprendizaje por refuerzo y técnicas de forzamiento de difusión para optimizar el rendimiento de forma integral. Este modelo admite diversas aplicaciones prácticas, como la generación de historias, la síntesis de imagen a video, la dirección de cámara y la creación consistente de videos multitemáticos mediante el sistema Skyreels-A2.
El framework Diffusion Forcing permite la generación de vídeos de duración infinita. SkyReels-V2 admite tareas de generación de texto a vídeo (T2V) e imagen a vídeo (I2V), y es capaz de ejecutar inferencias tanto en modo síncrono como asíncrono, con scripts de ejemplo que muestran la generación de vídeos largos.
Un componente destacado de SkyReels-V2 es SkyCaptioner-V1, un modelo de subtitulado de video diseñado para la anotación de datos. Este modelo se entrena con los resultados de subtitulado del modelo base Qwen2.5-VL-72B-Instruct y subtituladores expertos adicionales, utilizando un conjunto de datos cuidadosamente seleccionado de aproximadamente dos millones de videos equilibrados para garantizar la calidad de la anotación y el equilibrio conceptual.
SkyCaptioner-V1, basado en la base Qwen2.5-VL-7B-Instruct, está optimizado para un mejor rendimiento de subtitulado de video específico para cada dominio. Las evaluaciones realizadas con un conjunto de pruebas de 1,000 muestras indican que SkyCaptioner-V1 alcanza una precisión promedio superior a la de los modelos de referencia más modernos, destacando especialmente en los campos relacionados con las tomas.
Basándose en los éxitos anteriores con modelos de lenguaje de gran tamaño, los desarrolladores se centraron en mejorar la calidad del video generativo a través del aprendizaje de refuerzo, abordando limitaciones identificadas como dificultades con movimientos grandes y deformables e inconsistencias físicas ocasionales en los videos generados.
Para mejorar el rendimiento, se implementaron dos etapas secuenciales de ajuste fino supervisado (SFT) con resoluciones de 540p y 720p, respectivamente. La fase inicial de SFT tuvo lugar inmediatamente después del preentrenamiento y antes de la etapa de aprendizaje por refuerzo. Esta primera etapa de SFT actúa como un entrenador de equilibrio conceptual, refinando los resultados del preentrenamiento del modelo base, que utilizaba solo datos de vídeo de 24 fotogramas por segundo (fps), y simplificando la arquitectura al eliminar los componentes de incrustación de FPS.
¿Qué es SkyReels?
SkyReels es una plataforma de creación de videos basada en inteligencia artificial que permite a los usuarios producir cortometrajes, animaciones y videos combinando texto, imágenes y audio. La plataforma ofrece una amplia gama de funciones, incluyendo personajes generados por IA, herramientas para storyboard, sincronización labial, composición musical y edición de video, todo diseñado para agilizar el proceso de creación de contenido. También incluye modelos avanzados de IA como SkyReels-V1 y SkyReels-V2.
SkyReels-V1 es un modelo de base de video de código abierto enfocado en la producción de video centrada en el ser humano para dramas cortos, compatible con ambos texto a video y generación de imágenes a video mientras reproduce con precisión expresiones faciales sutiles y ofrece imágenes con calidad cinematográfica.
Descargo de responsabilidad: El contenido de este artículo refleja únicamente la opinión del autor y no representa en modo alguno a la plataforma. Este artículo no se pretende servir de referencia para tomar decisiones de inversión.
También te puede gustar

La Fundación Ethereum publica el informe "Trillion Dollar Security" que identifica áreas de mejora en el crecimiento de Ethereum.
En Resumen La Fundación Ethereum ha lanzado la iniciativa “Trillion Dollar Security” para abordar desafíos de seguridad críticos en seis áreas centrales del ecosistema Ethereum, con el objetivo de fortalecer la red para una adopción global a gran escala e invitar a la colaboración de la comunidad para dar forma a su futuro.

Datagram lanza una red de pruebas alfa para la interoperabilidad de DePIN
En Resumen Datagram ha lanzado su Alpha Testnet basada en Avalanche para respaldar la interoperabilidad de DePIN, lo que permite a los participantes ejecutar nodos, ganar recompensas en tokens y contribuir al desarrollo de infraestructura descentralizada a través del tiempo de actividad y las referencias.

Genspark presenta un navegador con IA que incluye navegación autónoma, agente de IA integrado y tienda MCP.
En Resumen Genspark ha lanzado un navegador impulsado por IA que automatiza tareas como la investigación y la organización de contenido, mejora la navegación con herramientas de IA en tiempo real y bloqueo de anuncios, y se integra con múltiples aplicaciones para agilizar los flujos de trabajo de los usuarios.

En tendencia
MásPrecios de las criptos
Más








