El problema de las alucinaciones en los chatbots de IA

Los chatbots de inteligencia artificial (IA) de empresas tecnológicas como OpenAI y Google han recibido múltiples actualizaciones de razonamiento recientemente, para que brinden respuestas confiables a sus usuarios, pero pruebas recientes sugieren que a veces su rendimiento es inferior al de los modelos anteriores gracias a las cada vez más evidentes ‘alucinaciones’,

El término ‘alucinación’ es una descripción utilizada para ciertos tipos de errores cometidos por los grandes modelos de lenguaje (LLM) que impulsan sistemas como ChatGPT o Gemini, entre otros. 

Puede ser:

  • Información falsa que el modelo hace pasar como verdadera
  • Una respuesta generada por la IA que es objetivamente precisa, pero que no es relevante para la pregunta formulada
  • Que el modelo no siga las instrucciones dadas de otra manera.

Un informe técnico de OpenAI, que evalúa sus últimos LLM, reveló que sus modelos o3 y o4-mini, lanzados en abril, presentaron tasas de alucinaciones significativamente más altas que el modelo o1 anterior de la compañía, lanzado a finales de 2024. 

Por ejemplo, al resumir datos públicos sobre personas, o3 alucinó el 33 % de las veces, mientras que o4-mini lo hizo el 48 %. En comparación, o1 tuvo una tasa de alucinaciones del 16 %.

El problema no se limita a OpenAI

Una popular tabla de clasificación de la empresa Vectara, que evalúa las tasas de alucinaciones, indica que algunos modelos de razonamiento, como DeepSeek-R1, experimentaron aumentos de dos dígitos en las tasas de alucinaciones en comparación con los modelos anteriores de sus desarrolladores. 

El equipo de Vectara señaló que, aunque el modelo DeepSeek-R1 alucinó el 14,3 % del tiempo, la mayoría de estas fueron «benignas», es decir, respuestas que están respaldadas fácticamente por razonamiento lógico o conocimiento del mundo, pero que en realidad no están presentes en el texto original que se le pidió al bot que resumiera.

Sean benignas o no, algunas aplicaciones potenciales para los LLM podrían verse frustradas por las alucinaciones: un modelo que constantemente afirma falsedades y requiere verificación de datos no será un asistente de investigación útil; un robot asistente legal que cita casos imaginarios causará problemas a los abogados; o un agente de atención al cliente que afirma que las políticas obsoletas siguen vigentes causará problemas a la empresa.

Sin embargo, las empresas afirmaron inicialmente que este problema se resolvería con el tiempo. De hecho, tras su lanzamiento, los modelos tendían a alucinar menos con cada actualización. Pero las altas tasas de alucinaciones de las versiones recientes de los principales chatbots de IA complican esta narrativa.

Puedes seguir leyendo: Los consumidores prefieren los productos únicos antes que lo popular en el metaverso


Nuestras redes sociales, únete y sé parte de la tecnología

Instagram

YouTube

X (Twitter) 

TikTok

Artículos recientes

MacBook Pro: el nuevo ordenador de Apple que estrena el chip M5

La semana pasada Apple lanzó sus nuevos productos iPad...

Yogi, el robot de Cartwheel Robotics, es el nuevo humanoide «amigable»

La empresa tecnológica Cartwheel Robotics presentó recientemente a Yogi,...

VT35, el nuevo taxi aéreo en China que transporta pasajeros y cargas

La empresa china EHang Holdings presentó recientemente la VT35,...