Es fácil engañar a los grandes modelos de lenguaje (LLM, por sus siglas en inglés) que hacen funcionar a chatbots como ChatGPT de OpenAI y Bard de Google. En un experimento realizado en febrero, unos investigadores de seguridad forzaron a Bing de Microsoft a comportarse como un estafador. Las instrucciones ocultas en una página web creada por el equipo ordenaban al chatbot que solicitara a quien lo usaba los datos de su cuenta bancaria. Este tipo de ataque, en el que la información encubierta obliga al sistema de inteligencia artificial (IA) a comportarse de forma no deseada, es solo el principio.
Desde entonces se han creado cientos de ejemplos de ataques de “inyección indirecta”, en los que se insertan prompts (instrucciones) secretas para alterar la conducta del modelo de IA. Este tipo de ataque se considera actualmente una de las formas más alarmantes en que los hackers abusarían de los modelos de lenguaje. Conforme las grandes corporaciones y las startups más pequeñas ponen en marcha sistemas de IA generativa, el sector de la ciberseguridad se esfuerza por concientizar sobre los peligros potenciales. Al hacerlo, esperan mantener la información, tanto personal como corporativa, a salvo. En estos momentos no existe una solución mágica, pero unas prácticas de protección comunes reducirían los riesgos.
La amenaza de la inyección de prompts en chatbots de IA
“La inyección indirecta de prompts es definitivamente una preocupación para nosotros”, comenta Vijay Bolina, director de seguridad de la información de la unidad de inteligencia artificial DeepMind de Google, quien afirma que esta empresa tiene en curso múltiples proyectos para comprender cómo se puede atacar a la IA. Anteriormente, señala Bolina, la inyección de prompts se consideraba “problemática”, pero la situación se ha agudizado desde que la gente comenzó a conectar los LLM a internet y a plug-ins, que añaden nuevos datos a los sistemas. A medida que más empresas los utilicen, alimentándolos potencialmente con más información personal y corporativa, todo se complicará. “Sin duda creemos que esto es un riesgo y, de hecho, limita los usos potenciales de los LLM para nosotros como industria”, observa Bolina.
Los ataques de inyección de prompts se dividen en dos categorías: directos e indirectos. Y esta última es la que más alarma a los expertos en seguridad. Cuando se utiliza un LLM, las personas formulan preguntas o dan instrucciones mediante prompts a los que el sistema responde. Las inyecciones directas se producen cuando alguien intenta que el LLM conteste de forma no deseada, por ejemplo, haciendo que genere discursos de odio o respuestas perjudiciales. Las inyecciones indirectas, que son las más preocupantes, van un paso más allá. En lugar de que el usuario introduzca un prompt malicioso, la orden procede de un tercero. Un sitio web que el LLM lea o un PDF que analice podrían, por ejemplo, contener instrucciones ocultas para que las siga el sistema de IA.
“El riesgo fundamental que se esconde detrás de todo esto, tanto para las instrucciones directas como para las indirectas, es que quien proporciona la entrada [o consulta] al LLM tiene un alto grado de influencia sobre la salida [o resultado]”, declara Rich Harang, arquitecto principal de seguridad centrado en sistemas de IA en Nvidia, la mayor fabricante mundial de chips de inteligencia artificial. En pocas palabras: si alguien es capaz de introducir datos en el LLM, posiblemente pueda manipular lo que este arroja como respuesta.
Los investigadores de seguridad han demostrado de qué manera se recurriría a las inyecciones indirectas de prompts para robar datos, manipular el currículum de alguien y ejecutar código de forma remota en una máquina. Un grupo de investigadores en la materia las clasifica como la principal vulnerabilidad para quienes implementan y manejan LLM. Y el Centro Nacional de Ciberseguridad, una rama del Cuartel General de Comunicaciones del Gobierno (GCHQ, por sus siglas en inglés), la agencia de inteligencia de Reino Unido, ha alertado incluso sobre el riesgo de esta clase de ataques, afirmando que se han producido cientos de casos hasta la fecha. “Aunque se está investigando la inyección de prompts, es posible que se trate simplemente de un problema inherente a la tecnología de los LLM”, resaltó la división del GCHQ en una publicación de su blog. “Existen algunas estrategias que dificultaría la inyección de prompts, pero todavía no se cuenta con soluciones infalibles”.






























Normas de participación
Esta es la opinión de los lectores, no la de este medio.
Nos reservamos el derecho a eliminar los comentarios inapropiados.
La participación implica que ha leído y acepta las Normas de Participación y Política de Privacidad
Normas de Participación
Política de privacidad
Por seguridad guardamos tu IP
216.73.216.168