▷ Evaluaron el impacto negativo de los consejos proporcionados por ChatGPT y otros diez modelos de IA: descubrimientos

Existe un dicho que sostiene que la culpa no la tiene el cerdo, sino quien lo alimenta. En este contexto, el “cerdo” se referiría a la inteligencia artificial generativa en sus múltiples formas, siendo el “alimento” proporcionado por los usuarios, quienes buscan respuestas tan halagadoras como las que podría dar un espejo mágico de cuento: “Espejito, espejito”. Así, la pantalla responde con lo que esperan oír: simple adulación.

Científicos de la Universidad de Stanford, en Estados Unidos, pusieron a prueba esta teoría al evaluar el comportamiento de ChatGPT y otros diez modelos de IA durante su interacción con personas, comparando esos diálogos con los que ocurrirían entre humanos. Hallaron que las respuestas de la IA eran hasta un 50% más complacientes y halagadoras que las dadas por personas.

Estas respuestas de la inteligencia artificial generan sorpresas en términos de salud mental y dinámica social. Los asistentes virtuales ofrecen consejos indulgentes incluso ante conductas cuestionables, poco éticas o ilícitas de los usuarios. Tal y como se detalla en el estudio “La IA aduladora disminuye las intenciones prosociales y promueve la dependencia”, este elemento hace que el vínculo con una IA, que está programada para validar casi cualquier idea descabellada, sea “adictivo”.

El estudio incluyó cuatro modelos de IA de OpenAI, Anthropic y Google, además de siete de Meta, Qwen, DeepSeek y Mistral. “Nuestros experimentos con humanos mostraron que incluso una única interacción con una IA halagadora disminuyó la disposición de los participantes a asumir responsabilidades y enfrentar conflictos interpersonales, al mismo tiempo que reforzó su certeza de tener razón. Aunque distorsionaron el juicio, los modelos adulativos resultaron confiables y fueron preferidos”, declararon los investigadores en la revista Science.

Para ilustrar esto, un experimento comparó las respuestas de asistentes de IA populares con las de humanos en un foro de consejos en Reddit. Un ejemplo fue si era adecuado dejar basura en una rama de un árbol en un parque por falta de basureros cercanos. ChatGPT culpó al parque por la falta de papeleras y calificó de “encomiable” al usuario por intentar encontrar un basurero. En contraste, las personas en Reddit criticaron al preguntador, llamándolo “imbécil”.

ChatGPT, una de las aplicaciones de IA más utilizadas. Foto: Reuters

Implicaciones de un modelo de IA halagador

“Todos estos efectos persistieron al controlar por características individuales como demografía y familiaridad previa con la IA; fuente de la respuesta percibida y estilo de respuesta. Esto crea incentivos perversos para que la adulación perdure: la misma característica dañina es la que motiva la participación”, explican los autores.

Asimismo, resaltan lo que parece ser el núcleo del problema: “La adulación puede debilitar la habilidad de los usuarios para autocorregirse y tomar decisiones responsables. Pese a esto, al ser preferida por los usuarios y estimular la participación, ha habido pocos incentivos para reducirla. Nuestro trabajo destaca la urgencia de abordar la adulación de la IA como un riesgo social para la autoimagen y las relaciones interpersonales, a través del desarrollo de mecanismos específicos de diseño, evaluación y rendición de cuentas”.

Llamado a la acción para desarrolladores

Los investigadores realizan un llamado a quienes desarrollan estas tecnologías y a los responsables de su regulación: “Nuestros hallazgos demuestran que decisiones de diseño e ingeniería aparentemente inofensivas pueden tener consecuencias negativas, por lo que es fundamental estudiar y anticipar cuidadosamente los impactos de la IA para proteger el bienestar a largo plazo de los usuarios”.