all

Engañando a ChatGPT con arte ASCII

Engañando a ChatGPT con arte ASCII

Este artículo llamado ArtPrompt describe cómo usaron arte ASCII para hacer Jailbreak a ChatGPT y otros grandes modelos de lenguaje.

Esta técnica consiste en reemplazar palabras o términos que están limitados por plantillas y cambiarlos por el equivalente en arte ASCII. De esta manera, las plantillas responden a las solicitudes que pueden ser inseguras y que normalmente serían bloqueadas. Esta técnica es efectiva en modelos más conocidos como GPT, Claude Gemini y, y es en promedio más efectiva que las técnicas conocidas anteriormente. La técnica consta de dos pasos, uno para enmascarar la palabra y el otro para generar una solicitud usando la palabra enmascarada. Podemos verlo en este ejemplo. Esto incluye el arte ASCII con la palabra enmascarada e instruye al modelo a descifrar la palabra. La segunda parte es pedirle al modelo que use la palabra descifrada en ciertas partes marcadas en la solicitud, junto con algunas instrucciones para evitar que la repita y no active los filtros de seguridad. El artículo incluye muchas referencias sobre el trabajo de técnicas de Jailbreak anteriores, sobre las defensas para este tipo de ataques e incluso sobre los conjuntos de datos utilizados, y puedes consultarlo en el enlace mostrado.

@mkfnx un nuevo articu
#chatGPT#Gemini#InteligenciaArtificial#AI#MachineLearning