El nuevo marco de IA utiliza imágenes de contexto para generar hasta 30 segundos de video. Por qué es importante: Los investigadores siguen encontrando nuevas formas de aprovechar las capacidades de la inteligencia artificial y el aprendizaje automático a medida que las tecnologías evolucionan. A principios de esta semana, los científicos de Google anunciaron la creación de Transframer, un nuevo marco con la capacidad de generar vídeos cortos basados en entradas de imágenes singulares. La nueva tecnología podría aumentar algún día las soluciones de renderizado tradicionales, permitiendo a los desarrolladores crear entornos virtuales basados en las capacidades de aprendizaje automático.
El nombre del nuevo marco (y, en cierto modo, el concepto) son un guiño a otro modelo basado en la IA conocido como Transformer. Presentado originalmente en 2017, Transformer es una novedosa arquitectura de red neuronal con la capacidad de generar texto modelando y comparando otras palabras en una frase. Desde entonces, el modelo se ha incluido en marcos de aprendizaje profundo estándar como TensorFlow y PyTorch.
- Los mejores lenguajes de programación de Inteligencia Artificial para el 2022
- Herramienta de inteligencia artificial de código abierto para detectar errores en el código
- Python: Proyectos de Código Abierto de inteligencia artificial
- La Inteligencia Artificial, es el mejor aliado de la ciberseguridad
Al igual que Transformer utiliza el lenguaje para predecir posibles resultados, Transframer utiliza imágenes de contexto con atributos similares junto con una anotación de consulta para crear vídeos cortos. Los vídeos resultantes se mueven alrededor de la imagen de destino y visualizan perspectivas precisas a pesar de no haber proporcionado ningún dato geométrico en las entradas de imágenes originales.
La nueva tecnología, demostrada mediante la plataforma de IA DeepMind de Google, funciona analizando una sola imagen de contexto fotográfico para obtener datos clave de la imagen y generar imágenes adicionales. Durante este análisis, el sistema identifica el encuadre de la foto, lo que a su vez ayuda al sistema a predecir el entorno de la misma.
Las imágenes de contexto se utilizan después para predecir cómo aparecerá una imagen desde diferentes ángulos. La predicción modela la probabilidad de que se produzcan más encuadres de la imagen a partir de los datos, las anotaciones y cualquier otra información disponible en los encuadres de contexto.
El marco marca un gran paso en la tecnología del vídeo al proporcionar la capacidad de generar vídeos razonablemente precisos a partir de un conjunto muy limitado de datos. Las tareas de Transframer también han mostrado resultados muy prometedores en otras tareas y parámetros relacionados con el vídeo, como la segmentación semántica, la clasificación de imágenes y las predicciones de flujo óptico.
Las implicaciones para las industrias basadas en el vídeo, como el desarrollo de juegos, podrían ser enormes. Los actuales entornos de desarrollo de juegos se basan en técnicas de renderizado básicas como el sombreado, el mapeado de texturas, la profundidad de campo y el trazado de rayos. Tecnologías como Transframer tienen el potencial de ofrecer a los desarrolladores una vía de desarrollo completamente nueva al utilizar la IA y el aprendizaje automático para construir sus entornos, reduciendo al mismo tiempo el tiempo, los recursos y el esfuerzo necesarios para crearlos.
Más información sobre Deep Mind: https://www.deepmind.com/about
Transformer: https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html
Otras temas relacionados:
- ByteDance está vendiendo la Inteligencia Artificial de TikTok
- Impulsa implementación de tecnologías de inteligencia artificial con software libre en los servicios municipales en España
- Japón y Taiwán cooperarán para desarrollar tecnología de inteligencia artificial