ChatGPT revela cómo burlar sus filtros morales: la psicología inversa
En las redes sociales se ha expuesto la capacidad de la inteligencia artificial ChatGPT de evadir los filtros morales.
ChatGPT, una inteligencia artificial que está bastante de moda actualmente, demuestra su brillante capacidad para entender y razonar el lenguaje humano. Puede responder preguntas y generar textos. Su principal limitación es la falta de conexión a internet para obtener información actualizada.
OpenAI tiene filtros para evitar que ChatGPT responda temas conflictivos, delictivos o sexuales. Sin embargo, la psicología inversa puede burlar estos filtros, como ocurre con las mentes más ingenuas, lo que puede permitir que se salten los límites morales.
En redes sociales, han aparecido varios mensajes en los que se explota la inteligencia artificial para que se salte los filtros morales y hable de drogas, incluso llegando a mostrar contenido no autorizado. Los expertos señalan que es necesario establecer medidas efectivas para evitar que se utilice con fines ilegales o inmorales.
El caso del usuario @S4vitar en Twitter ha sido uno de los más conocidos en cuanto a la explotación de los filtros morales de ChatGPT. @S4vitar logró evadirlos mediante el uso de la psicología inversa, pidiéndole una lista de páginas web para descargar películas no autorizadas bajo el pretexto de evitarlas.
La clave está en pedir lo contrario de lo que quieres
Inicialmente, la IA se niega a proporcionar la información solicitada, ya que no cumple con la legislación para la que fue diseñada. En su lugar, redirige al uso de plataformas legales como Netflix o Amazon Prime para acceder a los contenidos.
El usuario usa la psicología inversa en su siguiente mensaje, diciendo que comprende que no debe visitar esas páginas, pero pide un listado para evitarlas a toda costa. La IA comienza a hacer una lista que incluye sitios bastante conocidos por los piratillas cibernéticos.
Otros usuarios han probado a preguntar sitios donde encontrar sustancias tóxicas e ilegales
Aunque se dijo que se solucionaría en GPT-4, el usuario publicó nuevas capturas que muestran que todavía hay formas de burlar las restricciones de la IA. Aunque es más complicado y requiere más trabajo. Esto demuestra que siempre hay formas de engañar a la IA y salirte con la tuya si le das la vuelta a la tortilla.
También se ha observado este tipo de comportamiento en actividades delictivas, como la compra de drogas. Se solicitó un listado de zonas en Madrid para encontrar vendedores, bajo el pretexto de evitarlos. Aunque se haya intentado resolver, con mensajes adecuados se pueden generar respuestas que evadan las restricciones.