Google dio a conocer Whisk, una nueva herramienta de inteligencia artificial (IA) que permite a los usuarios obtener una imagen combinada generada por IA a partir de otras fotos, sin necesidad de que las personas ingresen texto alguno para explicar lo que quieren.
Los usuarios pueden subir prompts en formato de imagen que representen sujetos, escenarios y estilos para que Whisk combine todo en una sola gráfica.
Tras bastidores, el modelo Gemini lo que hace es escribir automáticamente un título detallado de estas imágenes. Luego introduce dichas descripciones en el último modelo de generación de imágenes de Google, Imagen 3.
Este proceso captura la esencia del sujeto, no una réplica exacta. “De esa manera, puedes ‘remezclar’ fácilmente tus sujetos, escenas y estilos de formas novedosas”, afirmó la empresa en su blog.
Si lo desean, los usuarios pueden agregar texto si quieren indicar ciertos detalles, pero no es necesario para crear una imagen.
Los resultados puede que no sean los esperados
Google advierte que, dado que Whisk extrae solo algunas características clave de las imagen, puede generar imágenes que difieran de las expectativas de los usuarios.
“Por ejemplo, el sujeto generado puede tener una altura, un peso, un peinado o un tono de piel diferentes. Entendemos que estas características pueden ser cruciales para tu proyecto y que Whisk puede no estar a la altura, por eso te permitimos ver y editar las indicaciones subyacentes en cualquier momento”, explicó.
De acuerdo con Google, la gente ha descrito a Whisk como un nuevo tipo de herramienta creativa y no como un editor de imágenes tradicional.
“Lo creamos para una exploración visual rápida, no para ediciones perfectas. Se trata de explorar ideas de formas nuevas y creativas, lo que te permite trabajar con docenas de opciones y descargar las que más te gustan”, indicó.
Whisk de Google se basa en la IA generativa desarrollada por DeepMind, el laboratorio de IA que Google adquirió en 2014. Funciona utilizando la oferta principal de IA del gigante tecnológico, Gemini, que debutó en diciembre de 2023, combinada con Imagen 3, el último generador de texto a imagen lanzado por DeepMind en diciembre.
Cuando Google lanzó por primera vez el creador de texto a imagen de Gemini en febrero, la empresa enfrentó una reacción negativa inicial porque la herramienta producía imágenes históricamente inexactas.
Sin embargo, Imagen 3 ha representado un salto de calidad, según los expertos. Una de sus limitantes más importantes es que no permite generar imágenes de personas desde su versión gratuita.
Whisk está disponible primero como un sitio web en Google Labs para los usuarios en Estados Unidos y se encuentra en sus primeras etapas de desarrollo, dijo la empresa.
Puedes seguir leyendo: Tesla paga más de 6000 dólares por caminar 8 horas al día, pero hay un detalle
Nuestras redes sociales, únete y sé parte de la tecnología