Un estudio publicado en diciembre de 2024 en The BMJ, una revista médica revisada por pares, sugirió que las tecnologías de inteligencia artificial (IA) como los modelos de lenguaje grandes (LLM) y los chatbots, al igual que las personas, podrían mostrar signos de deterioro cognitivo con la edad.
«Estos hallazgos desafían la suposición de que la IA pronto reemplazará a los médicos humanos», escribieron los autores del estudio en las conclusiones del artículo, «ya que el deterioro cognitivo evidente en los principales chatbots puede afectar su confiabilidad en los diagnósticos médicos y socavar la confianza de los pacientes».
Los científicos probaron chatbots impulsados por LLM disponibles públicamente, incluidos ChatGPT (OpenAI), Sonnet (Anthropic) y Gemini (Alphabet), utilizando la prueba de evaluación cognitiva de Montreal (MoCA), una serie de tareas que los neurólogos utilizan para evaluar las capacidades de atención, memoria, lenguaje, habilidades espaciales y función mental ejecutiva.
La MoCA se utiliza con mayor frecuencia para evaluar o probar la aparición de deterioro cognitivo en enfermedades como la enfermedad de Alzheimer o la demencia.
Resultados dispares para los LLM
Si bien algunos aspectos de las pruebas, como la denominación, la atención, el lenguaje y la abstracción, fueron aparentemente fáciles para la mayoría de los LLM utilizados, todos tuvieron un desempeño deficiente en habilidades visuales/espaciales y tareas ejecutivas, y varios obtuvieron peores resultados que otros en áreas como el recuerdo diferido.
Fundamentalmente, mientras que la versión más reciente de ChatGPT (versión 4) obtuvo la puntuación más alta (26 de 30), la versión más antigua de LLM Gemini 1.0 obtuvo solo 16, lo que lleva a la conclusión de que los LLM más antiguos muestran signos de deterioro cognitivo.
Los autores del estudio señalan que sus hallazgos son solo observacionales: las diferencias críticas entre las formas en que funcionan la IA y la mente humana significan que el experimento no puede constituir una comparación directa.
Pero advierten que podría indicar lo que llaman un «área de debilidad significativa» que frenaría el despliegue de la IA en la medicina clínica. En concreto, se opusieron al uso de la IA en tareas que requieren abstracción visual y función ejecutiva.
¿Es válido aplicar pruebas diseñadas para humanos en modelos de IA?
Sin embargo, otros científicos no se han convencido del estudio y sus resultados, llegando incluso a criticar los métodos y el planteamiento del mismo, en el que se acusa a los autores del estudio de antropomorfizar la IA al proyectar sobre ella condiciones humanas.
También se critica el uso de la MoCA, ya que se ha sugerido que se trata de una prueba examinada exclusivamente para su uso en seres humanos y que no arrojaría resultados significativos si se aplicara a otras formas de inteligencia.
De cualquier manera, el estudio “La edad contra la máquina: susceptibilidad de los grandes modelos lingüísticos al deterioro cognitivo: análisis transversal” trajo una nueva arista al debate sobre las múltiples aplicaciones que podría tener la inteligencia artificial y sus modelos.
Puedes seguir leyendo: Tres ejemplos de empresas de vehículos eléctricos de China que están fabricando robots humanoides
Nuestras redes sociales, únete y sé parte de la tecnología