OpenAI censura a ChatGPT tras su extraña fijación con los duendes

La empresa OpenAI publicó recientemente un curioso informe sobre un comportamiento inusual en sus modelos de inteligencia artificial (IA), marcado por un aumento en las referencias a "duendes" y otras criaturas míticas en respuestas donde no se requerían.

En noviembre del año pasado, tras el lanzamiento de ChatGPT-5.1, algunos usuarios comenzaron a notar un tono extrañamente repetitivo en algunas respuestas que ofrecía el sistema, lo que motivó al equipo de seguridad a investigar el origen de estos "tics verbales". Según un análisis interno, el uso del término "duende" aumentó un 175 %, mientras que "gremlin" creció un 52 % en comparación con versiones anteriores.

El origen del problema

Aunque inicialmente la aparición de estas palabras no generó mayor inquietud, con el tiempo su frecuencia se volvió más notoria y preocupante. Tras una nueva investigación, OpenAI identificó que el origen del problema estaba relacionado a la configuración de personalidad del modelo, en especial con el perfil denominado 'Nerdy'.

Este estilo de personalidad, diseñado para ser juguetón y sabio, recibió señales de recompensas por el uso de lenguaje ingenioso y metáforas asociadas con criaturas ficticias. Este comportamiento terminó extendiéndose a todo el modelo cuando los procesos de aprendizaje por refuerzo asociados al perfil 'Nerdy' se incorporaron al entrenamiento general.

Como respuesta, OpenAI retiró la personalidad 'Nerdy' el pasado marzo, después del lanzamiento de ChatGPT-5.4. También aplicó filtros en los datos de entrenamiento para reducir las referencias a duendes y gremlins en contextos inapropiados.

Si te ha gustado, ¡compártelo con tus amigos!