Imagen 3 de Google, una nueva referencia en modelos de generación de imágenes por IA

Imagen 3, el generador de imágenes por inteligencia artificial (IA) de Google, ya está disponible de forma gratuita para todos los usuarios de Gemini, tanto en dispositivos móviles, computadoras de escritorio y laptops. 

Para el gigante tecnológico, Imagen 3 es su modelo de creación de gráficas de mayor calidad hasta la fecha, alegando que sigue mejor las instrucciones. Sin embargo, viene con una limitación importante.

Si un usuario quiere generar imágenes de personas, tiene que ser cliente de Gemini Advanced, es decir, de la versión paga. 

Gemini Advanced cuesta 19.99 dólares al mes y forma parte del plan Google One AI Premium, que incluye 2 terabytes (TB) de almacenamiento y Gemini en Google Docs.

¿Cómo funciona Imagen 3 de Google?

A diferencia de otros generadores de imágenes de IA, Imagen 3 crea una sola gráfica a partir de cada solicitud. Recuerda lo que se pidió anteriormente, así que se puede refinar la imagen solicitando cambios, pero igual va a generar una nueva por cada solicitud que se le introduzca.

La imagen se podrá descargar en formato JPEG con una única resolución de 2048 x 2048 píxeles. Así, la ilustración será siempre cuadrada.

En resumen, para crear y descargar las imágenes no hay limitaciones específicas, por lo que se pueden originar tantas representaciones gráficas como se deseen. Pero se debe tener presente sus principales restricciones:

  • Solo es posible generar imágenes de personas con la versión paga (Gemini Advanced)
  • Aunque con una resolución decente, solo crea imágenes cuadradas

Aun así, Imagen 3 de Google merece la pena su exploración. Por ejemplo, se le puede solicitar la creación de paisajes fotorrealistas, pinturas al óleo ricas en texturas o incluso escenas de plastilina, por mencionar algunos ejemplos, y dará resultados más que satisfactorios.

También se le puede pedir que cree palabras hechas con otras formas, o talladas en edificios, y el output será realista. 

A pesar de la limitante de no poder crear personas con su versión gratuita, Imagen 3 establece un nuevo punto de referencia en cuanto a lo que pueden conseguir los modelos de conversión de texto a imagen, ofreciendo impresionantes efectos visuales a partir de sencillas instrucciones de texto. 

A medida que evoluciona la creación de contenidos impulsada por la IA, es esencial entender cómo Imagen 3 se medirá con otros jugadores importantes como DALL-E 3 de OpenAI, Stable Diffusion y MidJourney. 

Al comparar sus características y capacidades, será posible comprender mejor los puntos fuertes de cada modelo y su potencial para transformar las industrias. 

En definitiva, Imagen 3 de Google es una mejora visual de su versión anterior Imagen 2. Las imágenes son más ricas y detalladas, y sigue mejor las instrucciones que le da Gemini.

El nuevo modelo equipara las capacidades de generación de imágenes de la marca con las de DALL-E 3 de OpenAI, aunque sigue generando únicamente imágenes cuadradas, mientras que ChatGPT puede utilizar DALL-E 3 para crear imágenes de cualquier orientación y tamaño.

No dejes de leer: Polémico: experto en IA Yann LeCun afirmó que actualmente la IA no es más lista que una mascota


Nuestras redes sociales, únete y sé parte de la tecnología 

Instagram

YouTube

X (Twitter) 

TikTok

 Pinterest

Artículos recientes