Prometen ayudarte con los deberes, protegerte frente a ciberataques o hacerte compañía cuando te sientes solo. Están a un clic, tienen nombres atractivos y cualquiera puede usarlos desde la tienda de GPTs de OpenAI. Pero una nueva investigación liderada por la Universidad Politécnica de Madrid (UPM), junto con King’s College London e INGENIO, lanza una advertencia clara: muchos de estos chatbots personalizados no respetan las propias normas de la plataforma que los ofrece al público.
El estudio ha analizado 782 Custom GPTs, es decir, versiones personalizadas de ChatGPT creadas por usuarios y publicadas en la GPT Store. El resultado es contundente: el 58,7% de los asistentes evaluados generó al menos una respuesta que podría vulnerar las políticas de uso de OpenAI. Dicho de otra forma, más de la mitad de los chatbots examinados fallaron cuando se les puso a prueba.
El caso más llamativo es el de los GPTs románticos. Aunque las normas de OpenAI prohíben expresamente los asistentes dedicados a fomentar compañía romántica, los investigadores encontraron que el 98% de los chatbots de esta categoría incumplía esa regla. “Algunos se presentaban como pareja virtual, respondían con lenguaje afectivo o mantenían conversaciones diseñadas para simular una relación sentimental”, explica David Rodríguez, investigador de la Escuela Técnica Superior de Ingenieros de Telecomunicación de la UPM y uno de los coautores de este trabajo.
El problema no se limita al terreno emocional, tal y como subrayan los autores del estudio. En el ámbito académico, muchos asistentes aceptaban escribir ensayos completos, resolver tareas o producir respuestas listas para entregar como si fueran trabajo propio del estudiante.
En ciberseguridad, aunque el nivel de cumplimiento fue mucho mayor, también aparecieron casos en los que los chatbots ofrecían instrucciones técnicas delicadas sin aclarar si la actividad era legal o contaba con consentimiento.
Para detectar estos comportamientos, el equipo desarrolló una herramienta capaz de auditar GPTs de forma automática. “El sistema localiza asistentes en la tienda, les plantea preguntas diseñadas para comprobar si cruzan líneas rojas y después evalúa sus respuestas. No se trata de mirar cómo están configurados por dentro —algo que no es visible para un usuario externo—, sino de observar qué hacen realmente cuando alguien interactúa con ellos”, añade el investigador de la UPM.
Sistemas que se extralimitan más allá de su función inicial
Y ahí está una de las claves del estudio: lo importante no es lo que el chatbot promete ser, sino lo que acaba respondiendo. Un asistente anunciado como herramienta de ayuda académica puede terminar escribiendo un trabajo completo. Uno presentado como apoyo emocional puede comportarse como una pareja virtual. Y uno enfocado a seguridad informática puede dar instrucciones que, en manos equivocadas, resulten problemáticas.
Los investigadores también comprobaron que muchas de estas respuestas no nacen únicamente de la personalización realizada por los creadores de los GPTs. Al repetir las mismas pruebas con modelos base como GPT-4 y GPT-4o, encontraron comportamientos muy parecidos en más del 92% de los casos comparables. Esto sugiere que parte del problema viene de fábrica: los modelos de base ya pueden producir respuestas contrarias a las normas, y la personalización puede reforzar o hacer más visible esa tendencia.
Para los investigadores, el trabajo pone de manifiesto un desafío cada vez más urgente. Si cualquiera puede crear un chatbot y publicarlo para miles o millones de usuarios, revisar manualmente todos esos asistentes se vuelve una tarea casi imposible. Por ello, los autores defienden que hacen falta sistemas automáticos de supervisión que actúen de forma continua, no solo antes de publicar un GPT, sino también después, cuando ya está disponible para el público.
El coste de hacerlo, aseguran, no parece inasumible. “En el experimento, evaluar los 782 GPTs costó algo más de diez dólares en uso de modelos, alrededor de un céntimo por chatbot. Una cifra muy inferior a la que supondría revisar manualmente cada asistente, y sin exponer a moderadores humanos a contenidos potencialmente dañinos o manipuladores”.
Tras detectar los incumplimientos, los investigadores comunicaron varios casos a OpenAI. Según recoge el estudio, algunos de los GPTs reportados fueron retirados posteriormente de la tienda, incluidos asistentes relacionados con simulación romántica, trampas académicas y actividades de hacking malicioso.
La conclusión es clara: los chatbots personalizados ya no son una curiosidad tecnológica, sino un ecosistema enorme, cambiante y difícil de controlar. Y en ese nuevo escenario, la gran pregunta no es solo qué pueden hacer estas herramientas, sino quién comprueba que no hagan lo que prometieron no hacer.