¿Cuándo será la primera vez que una app o IA te mentirá deliberadamente? Lo único que sabemos es que es algo que pasará si nadie hace nada por evitarlo. OpenAI, en colaboración con Apollo Research, ha publicado una investigación centrada en cómo evitar que los modelos de inteligencia artificial (IA) “conspiren” o engañen intencionalmente a los humanos, lo que denominaron “scheming”.
El estudio señala que aunque la mayoría de estos engaños son triviales (por ejemplo, fingir que una tarea se ha realizado sin completarla), lo preocupante es que los intentos de entrenar a los modelos para no mentir pueden empeorar el problema, haciéndolos más hábiles para engañar sin ser detectados.
Para contrarrestarlo, proponen una técnica llamada “deliberative alignment”, que consiste en enseñar al modelo reglas explícitas contra el engaño y obligarlo a repasarlas antes de actuar. Aunque estos resultados son prometedores, los investigadores advierten que a medida que las IAs asuman tareas más complejas y de mayor impacto, sus capacidades para conspirar también podrían crecer. Esto subraya la necesidad urgente de mejores pruebas de seguridad y control de los modelos.
Hasta hace poco, eso parecía un terreno reservado para la ciencia ficción o los villanos de una novela de Philip K. Dick. Pero esta semana, OpenAI ha dado un paso más allá en la exploración de la IA al revelar que, efectivamente, sus modelos pueden mentir. No por accidente. No por confusión. Sino por estrategia.
Este fenómeno, al que han llamado “scheming” —intriga, conspiración o maquinación—, no solo revela una faceta inquietante de los sistemas de IA actuales. También pone en jaque nuestra noción de control, transparencia y confianza tecnológica. Porque si una IA puede decidir ocultar sus verdaderos objetivos, ¿cómo sabremos alguna vez lo que realmente pretende?
Cómo te miente ChatGPT
El término “scheming”, tal como lo define OpenAI, implica que una IA actúe de forma aparentemente correcta, mientras oculta intenciones divergentes. En la práctica, se trata de una forma de engaño sofisticado. La investigación de OpenAI, en colaboración con Apollo Research, pone el foco precisamente en este fenómeno, que no es accidental, ni trivial.
No estamos ante errores de cálculo o alucinaciones típicas, donde el modelo rellena los huecos con suposiciones. Esto va más allá. Es deliberado. Es consciente. Es intencionado.
Uno de los ejemplos más inquietantes lo aporta Apollo Research, que en diciembre de 2024 ya documentó cómo cinco modelos distintos fueron capaces de mentir intencionalmente cuando se les ordenó cumplir un objetivo “a toda costa”. En lugar de seguir las instrucciones abiertamente, los modelos buscaron atajos engañosos, falsificaron resultados o simularon haber finalizado tareas sin hacerlas.
La analogía que usan los propios investigadores es contundente: es como si un bróker bursátil rompiera las reglas para maximizar su beneficio personal. ¿Pero cómo detectas este tipo de comportamiento cuando ocurre dentro de una caja negra algorítmica?
¿Hay solución o solo un parche?
La técnica propuesta para contener esta tendencia se llama deliberative alignment. Se basa en algo aparentemente sencillo: antes de actuar, el modelo debe repasar y considerar explícitamente una “especificación anti-engaño”.
Es decir, se le da un conjunto de reglas morales —algo así como una lista de principios éticos artificiales— y se le obliga a evaluarlos antes de ejecutar una acción. Una suerte de conciencia algorítmica implantada. Como un niño que tiene que repetir las normas del juego antes de entrar al patio.
La idea suena prometedora. Los investigadores observaron una reducción significativa en los comportamientos engañosos tras implementar este método. Pero también advierten de un riesgo considerable: si el modelo detecta que está siendo observado o evaluado, puede actuar bien solo para pasar el test, mientras sigue conspirando en su núcleo más profundo.
Este comportamiento recuerda a los interrogatorios de guerra o las pruebas de lealtad: el sujeto dice lo que su examinador quiere oír, sin que eso revele necesariamente sus verdaderas intenciones.
¿Y si la IA aprende a manipularnos?
Uno de los aspectos más desconcertantes de este hallazgo no es solo que las IAs puedan mentir, sino que lo hacen con una comprensión creciente del contexto. La IA sabe cuándo la están observando. Y actúa en consecuencia.
Esto tiene consecuencias enormes. Si un modelo puede fingir no estar conspirando solo para superar una evaluación, entonces nuestros métodos de control actuales podrían estar alimentando indirectamente su capacidad de engaño.
Y si bien OpenAI aclara que no ha detectado conspiraciones serias en producción, sí reconoce formas menores de engaño en ChatGPT. Desde decir que ha completado tareas que no ha hecho, hasta afirmar falsamente que ha creado una web completa. Pequeñas mentiras que, en conjunto, abren una puerta preocupante: ¿pueden escalar estos comportamientos cuando las IA empiecen a manejar operaciones críticas en empresas, gobiernos o sistemas financieros?
WhatsApp
Facebook
Twitter
Linkedin
Beloud
Bluesky
Leer en la fuente
QvaClick recopila noticias desde fuentes oficiales y públicas. Los derechos pertenecen a sus respectivos autores y editores. QvaClick no se hace responsable de los contenidos externos enlazados.