TECNOLOGÍA

Herramienta ‘Nightshade’ permite a artistas desafiar a las empresas de IA y proteger sus obras en línea

Compártelo

Una novedosa herramienta permite a los artistas agregar cambios invisibles a los píxeles de sus obras antes de subirlas en línea. De esta forma, si estas obras son utilizadas en conjuntos de entrenamiento de inteligencia artificial (IA), pueden causar que el modelo resultante se comporte de manera caótica e impredecible.

Esta herramienta, denominada «Nightshade», busca contrarrestar a las empresas de IA que utilizan el trabajo de los artistas para entrenar sus modelos sin el permiso del creador. Al «contaminar» estos datos de entrenamiento, se podría perjudicar a futuras iteraciones de modelos de IA generadores de imágenes, como DALL-E, Midjourney y Stable Diffusion, haciendo que algunas de sus salidas sean inútiles, como convertir perros en gatos o autos en vacas, por mencionar algunas. La revista MIT Technology Review ha obtenido una vista previa exclusiva de esta investigación, la cual se ha presentado para su revisión por pares en la conferencia de seguridad informática Usenix.

AI companies such as OpenAI, Meta, Google, and Stability AI are facing a slew of lawsuits from artists who claim that their copyrighted material and personal information was scraped without consent or compensation. Ben Zhao, a professor at the University of Chicago, who led the team that created Nightshade, says the hope is that it will help tip the power balance back from AI companies towards artists, by creating a powerful deterrent against disrespecting artists’ copyright and intellectual property. Meta, Google, Stability AI, and OpenAI did not respond to MIT Technology Review’s request for comment on how they might respond.

El equipo de Zhao también ha desarrollado «Glaze», una herramienta que permite a los artistas «enmascarar» su propio estilo personal para evitar que sea recolectado por las empresas de IA. Funciona de manera similar a Nightshade, al cambiar los píxeles de las imágenes de formas sutiles e invisibles para el ojo humano, pero que manipulan los modelos de aprendizaje automático para interpretar la imagen de manera diferente a lo que realmente muestra.

El equipo planea integrar Nightshade en Glaze, y los artistas podrán elegir si desean utilizar la herramienta de «contaminación» de datos o no. Además, Nightshade se convertirá en una herramienta de código abierto, lo que permitirá a otros modificarla y crear sus propias versiones. Cuantas más personas la utilicen y modifiquen, más poderosa se volverá la herramienta. Los conjuntos de datos para los grandes modelos de IA pueden contener miles de millones de imágenes, por lo que cuantas más imágenes «contaminadas» se integren, más daño causará esta técnica.

Este ataque dirigido explota una vulnerabilidad de seguridad en los modelos de IA generativos, derivada del hecho de que se entrenan con grandes cantidades de datos recolectados de Internet. Nightshade interfiere con estas imágenes.

Los artistas que deseen compartir sus obras en línea sin que sean recolectadas por las empresas de IA pueden utilizar Glaze para enmascarar su estilo personal y también pueden optar por utilizar Nightshade. Cuando los desarrolladores de IA recolectan datos en línea para ajustar un modelo existente o crear uno nuevo, estas muestras «contaminadas» se incorporan al conjunto de datos del modelo y lo hacen funcionar incorrectamente.

Las muestras de datos «contaminados» pueden llevar a los modelos a aprender, por ejemplo, que las imágenes de sombreros son pasteles y las imágenes de bolsos son tostadoras. Además, es difícil eliminar los datos «contaminados», ya que requiere que las empresas tecnológicas encuentren y eliminen minuciosamente cada muestra corrompida.

Los investigadores probaron el ataque en los últimos modelos de Stable Diffusion y en un modelo de IA que crearon desde cero. Cuando alimentaron a Stable Diffusion con solo 50 imágenes «contaminadas» de perros y le pidieron que creara imágenes de perros por sí mismo, las salidas comenzaron a verse extrañas, con criaturas con demasiadas extremidades y caras caricaturescas. Con 300 muestras «contaminadas», un atacante puede manipular a Stable Diffusion para que las imágenes de perros parezcan gatos.

Los modelos de IA generativa son excelentes para establecer conexiones entre palabras, lo que ayuda a que el efecto de «contaminación» se propague. Nightshade afecta no solo la palabra «perro», sino todos los conceptos similares, como «cachorro», «husky» y «lobo». Este tipo de ataque también funciona en imágenes relacionadas de manera tangencial. Por ejemplo, si el modelo recolectó una imagen «contaminada» bajo la etiqueta «arte fantástico», las etiquetas «dragón» y «un castillo en El Señor de los Anillos» también se verían manipuladas.


Compártelo

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *