Desbloqueando la clasificación de imágenes diferencialmente privada de alta precisión a través de la escala

'Optimizando la precisión de la clasificación de imágenes de forma diferencialmente privada a gran escala'

Un reciente documento de DeepMind sobre los riesgos éticos y sociales de los modelos de lenguaje identificó como un riesgo potencial que las organizaciones que trabajan en estos modelos tienen la responsabilidad de abordar, la filtración de información sensible sobre los datos de entrenamiento por parte de los grandes modelos de lenguaje. Otro documento reciente muestra que estos riesgos de privacidad también pueden surgir en modelos de clasificación de imágenes estándar: se puede encontrar una huella digital de cada imagen de entrenamiento incrustada en los parámetros del modelo, y partes malintencionadas podrían explotar dichas huellas digitales para reconstruir los datos de entrenamiento a partir del modelo.

Tecnologías que mejoran la privacidad, como la privacidad diferencial (DP), se pueden implementar durante el entrenamiento para mitigar estos riesgos, pero a menudo conllevan una reducción significativa en el rendimiento del modelo. En este trabajo, avanzamos considerablemente hacia la posibilidad de entrenar modelos de clasificación de imágenes de alta precisión bajo privacidad diferencial.

Figura 1: (izquierda) Ilustración de la filtración de datos de entrenamiento en GPT-2 [crédito: Carlini et al. "Extracción de datos de entrenamiento de grandes modelos de lenguaje", 2021]. (derecha) Ejemplos de entrenamiento de CIFAR-10 reconstruidos a partir de una red neuronal convolucional de 100K parámetros [crédito: Balle et al. "Reconstrucción de datos de entrenamiento con adversarios informados", 2022]

La privacidad diferencial se propuso como un marco matemático para capturar el requisito de proteger los registros individuales en el curso del análisis estadístico de datos (incluido el entrenamiento de modelos de aprendizaje automático). Los algoritmos de DP protegen a los individuos de cualquier inferencia sobre las características que los hacen únicos (incluida la reconstrucción completa o parcial) al inyectar ruido cuidadosamente calibrado durante el cálculo de la estadística o el modelo deseado. El uso de algoritmos de DP proporciona garantías de privacidad robustas y rigurosas tanto en teoría como en práctica, y se ha convertido en un estándar de oro de facto adoptado por varias organizaciones públicas y privadas.

El algoritmo de DP más popular para el aprendizaje profundo es el descenso de gradiente estocástico diferencialmente privado (DP-SGD), una modificación del SGD estándar obtenida mediante el recorte de los gradientes de ejemplos individuales y la adición de suficiente ruido para ocultar la contribución de cada individuo a cada actualización del modelo:

Figura 2: Ilustración de cómo DP-SGD procesa los gradientes de ejemplos individuales y agrega ruido para producir actualizaciones del modelo con gradientes privados.

Desafortunadamente, trabajos anteriores han encontrado que, en la práctica, la protección de privacidad proporcionada por DP-SGD a menudo se traduce en modelos significativamente menos precisos, lo que representa un obstáculo importante para la adopción generalizada de la privacidad diferencial en la comunidad de aprendizaje automático. Según la evidencia empírica de trabajos anteriores, esta degradación de utilidad en DP-SGD se vuelve más severa en modelos de redes neuronales más grandes, incluidos aquellos que se utilizan regularmente para lograr el mejor rendimiento en desafiantes bancos de pruebas de clasificación de imágenes.

Nuestro trabajo investiga este fenómeno y propone una serie de modificaciones simples tanto al procedimiento de entrenamiento como a la arquitectura del modelo, lo que produce una mejora significativa en la precisión del entrenamiento DP en bancos de pruebas estándar de clasificación de imágenes. La observación más sorprendente que surge de nuestra investigación es que DP-SGD se puede utilizar para entrenar eficientemente modelos mucho más profundos de lo que se pensaba anteriormente, siempre que se asegure que los gradientes del modelo sean manejables. Creemos que el salto sustancial en el rendimiento logrado por nuestra investigación tiene el potencial de desbloquear aplicaciones prácticas de modelos de clasificación de imágenes entrenados con garantías formales de privacidad.

La figura a continuación resume dos de nuestros principales resultados: una mejora de aproximadamente el 10% en CIFAR-10 en comparación con trabajos anteriores al entrenar de forma privada sin datos adicionales, y una precisión de top-1 del 86,7% en ImageNet al ajustar de forma privada un modelo preentrenado en un conjunto de datos diferente, casi cerrando la brecha con el mejor rendimiento no privado.

Figura 3: (izquierda) Nuestros mejores resultados en el entrenamiento de modelos WideResNet en CIFAR-10 sin datos adicionales. (derecha) Nuestros mejores resultados en el ajuste fino de modelos NFNet en ImageNet. El modelo de mejor rendimiento se preentrenó en un conjunto de datos interno independiente de ImageNet.

Estos resultados se logran con 𝜺=8, una configuración estándar para calibrar la fuerza de la protección ofrecida por la privacidad diferencial en aplicaciones de aprendizaje automático. Nos referimos al artículo para una discusión sobre este parámetro, así como para obtener resultados experimentales adicionales en otros valores de 𝜺 y también en otros conjuntos de datos. Junto con el artículo, también estamos compartiendo nuestro código fuente para que otros investigadores puedan verificar nuestros hallazgos y construir sobre ellos. Esperamos que esta contribución ayude a otros interesados en hacer del entrenamiento DP práctico una realidad.

Descarga nuestra implementación de JAX en GitHub .