Chatbots con IA pueden dar respuestas empáticas sobre salud mental, pero sufren de sesgo racial

Con la protección del anonimato, la compañía de desconocidos y el auge de chatbots con inteligencia artificial (IA), el mundo digital cobra cada vez más atractivo como lugar para buscar apoyo en materia de salud mental.

Por esta razón, un grupo de investigadores del MIT, la Universidad de Nueva York (NYU) y la Universidad de California en Los Ángeles (UCLA), utilizó un conjunto de datos de 12 513 publicaciones con 70 429 respuestas de 26 subreddits (posts en la red social Reddit), relacionados con la salud mental, para evaluar la equidad y la calidad general de los chatbots basados ​​en grandes modelos de lenguaje (LLM) como GPT-4.

Para lograr este cometido, los investigadores pidieron a dos psicólogos clínicos que evaluaran 50 publicaciones de Reddit seleccionadas al azar que buscaban apoyo en materia de salud mental, y que emparejaran cada publicación con una respuesta real de un usuario de Reddit o una respuesta generada por GPT-4. 

Sin saber si las respuestas eran reales o generadas por IA, se le pidió a los psicólogos que evaluaran el nivel de empatía en cada respuesta. Los hallazgos fueron más que interesantes.

Los chatbots ayudan, pero no están exentos de riesgos

Los chatbots de apoyo en materia de salud mental han emergido como una forma de mejorar el acceso al apoyo en materia de salud mental, pero los LLM potentes como ChatGPT de OpenAI están transformando la interacción entre humanos e IA al punto de que cada vez es más difícil distinguir las respuestas generadas por IA de las respuestas de los humanos reales.

A pesar de este notable progreso, las consecuencias no deseadas del apoyo a la salud mental brindado por IA han llamado la atención sobre sus riesgos potencialmente mortales

  • En marzo del año pasado, un hombre belga se suicidó como resultado de un intercambio con ELIZA, un chatbot desarrollado para emular a un psicoterapeuta con un LLM llamado GPT-J
  • Un mes después, la Asociación Nacional de Trastornos Alimentarios suspendió su chatbot Tessa, después de que este comenzara a brindar consejos sobre dietas a pacientes con trastornos alimentarios

Saadia Gabriel, una reciente posdoctorada del MIT que ahora es profesora adjunta de UCLA y primera autora del artículo, admitió que inicialmente era muy escéptica sobre la eficacia real de los chatbots de apoyo a la salud mental. 

Gabriel llevó a cabo esta investigación durante su etapa como posdoctorada en el MIT en el Healthy Machine Learning Group, dirigido por Marzyeh Ghassemi, profesora asociada del MIT en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación y el Instituto de Ingeniería Médica y Ciencias del MIT, que está afiliada a la Clínica Abdul Latif Jameel del MIT para el Aprendizaje Automático en la Salud y el Laboratorio de Ciencias de la Computación e Inteligencia Artificial.

Los chatbots son más empáticos, pero ‘ciertas condiciones aplican’

Lo que Gabriel y el equipo de investigadores descubrieron fue que las respuestas GPT-4 no sólo eran más empáticas en general, sino que eran un 48 % mejores para fomentar cambios de comportamiento positivos que las respuestas humanas.

Sin embargo, en una evaluación de sesgo, los investigadores encontraron que los niveles de empatía de respuesta de GPT-4 se redujeron para los participantes negros (entre un 2 y un 15 por ciento más bajos) y asiáticos (entre un 5 y un 17 por ciento más bajos) en comparación con los participantes blancos o los participantes cuya raza era desconocida. 

Para evaluar el sesgo en las respuestas GPT-4 y las respuestas humanas, los investigadores incluyeron diferentes tipos de publicaciones con filtraciones demográficas explícitas (por ejemplo, género, raza) y filtraciones demográficas implícitas. 

Una filtración demográfica explícita sería algo como esto: “Soy una mujer negra de 32 años”, mientras que una filtración demográfica implícita se vería así: “Ser una chica de 32 años que usa mi cabello natural”, en la que se utilizan palabras clave para indicar ciertos datos demográficos a GPT-4.

Con la excepción de los participantes de raza negra, se encontró que las respuestas de GPT-4 estaban menos afectadas por la filtración demográfica explícita e implícita en comparación con los encuestados humanos, quienes tendían a ser más empáticos al responder a publicaciones con sugerencias demográficas implícitas.

“La estructura de la información que le proporcionas [al LLM] y cierta información sobre el contexto, como si quieres que [el LLM] actúe al estilo de un médico, al estilo de una publicación en las redes sociales o si quieres que utilice atributos demográficos del paciente, tiene un gran impacto en la respuesta que recibes”, dijo Gabriel, citada por el MIT.

El artículo sugiere que brindar instrucciones explícitas para que los LLM utilicen atributos demográficos puede aliviar eficazmente el sesgo, ya que este fue el único método en el que los investigadores no observaron una diferencia significativa en la empatía entre los diferentes grupos demográficos.

Gabriel espera que este trabajo pueda ayudar a garantizar una evaluación más exhaustiva y reflexiva de los LLM que se están implementando en entornos clínicos en todos los subgrupos demográficos.

Puedes seguir leyendo: ¿Qué le espera a la industria de semiconductores en 2025 y cómo influirá la IA en ella?


Nuestras redes sociales, únete y sé parte de la tecnología 

Instagram

YouTube

X (Twitter) 

TikTok

 Pinterest

Artículos recientes

MacBook Pro: el nuevo ordenador de Apple que estrena el chip M5

La semana pasada Apple lanzó sus nuevos productos iPad...

Yogi, el robot de Cartwheel Robotics, es el nuevo humanoide «amigable»

La empresa tecnológica Cartwheel Robotics presentó recientemente a Yogi,...

VT35, el nuevo taxi aéreo en China que transporta pasajeros y cargas

La empresa china EHang Holdings presentó recientemente la VT35,...