El Comité Europeo de Protección de Datos publica el informe sobre ChatGPT elaborado por un grupo de trabajo

03-06-2024 — AR/2024/049

El informe recopila las conclusiones preliminares de las investigaciones del grupo de trabajo sobre el servicio ChatGPT.

El Comité Europeo de Protección de Datos (CEPD) ha publicado el informe sobre el servicio ChatGPT, fechado el 23-5-2024 y elaborado por el grupo de trabajo que creó, hace alrededor de un año, para analizar si cumplía con el reglamento general de protección de datos1 de la Unión Europea (UE).

Este informe contiene las opiniones preliminares de este grupo, que resumimos a continuación.

Creación del grupo de trabajo

El CEPD creó, en abril de 2023, un grupo de trabajo sobre ChatGPT para intercambiar información y analizar el posible tratamiento de datos personales en esta aplicación.

Se sumaba así a las iniciativas de investigación de varias autoridades encargadas de la protección de datos de la Unión Europea a OpenAI OpCo, LLC, la empresa estadounidense responsable del servicio ChatGPT.

Estas iniciativas las enmarcan en la definición de los modelos de inteligencia artificial de propósito general recogida en el artículo 3 (63) del borrador del reglamento de inteligencia Artificial,2 basados, a su vez, en los «modelos lingüísticos de gran tamaño» (conocidos por las siglas inglesas LLM3).

OpenAI tiene un único establecimiento en la UE desde el 15-2-2024 y, por tanto, tiene una única autoridad de control. No obstante, otras autoridades han continuado investigando operaciones de tratamiento anteriores a esa fecha, y el grupo de trabajo sobre ChatGPT va a continuar coordinándolas.

Opiniones preliminares

Las principales conclusiones del grupo de trabajo, según su categoría, son las siguientes.

Legalidad de la recogida de datos y del tratamiento previo

  1. Recuerda que el tratamiento de datos personales debe:
    • contar con una base legitimadora (artículo 6.1 del RGPD),
    • cumplir con el artículo 9.2 del RGPD respecto al tratamiento de datos personales sensibles o especialmente protegidos, y
    • distinguir las diferentes etapas del tratamiento de datos personales, en este caso de ChatGPT:
      • recogida de datos de entrenamiento,
      • preprocesamiento,
      • entrenamiento del sistema, y
      • salida.
  2. Las tres primeras etapas entrañan riesgos relevantes para los derechos y libertades fundamentales de las personas físicas, debido a:
    • la práctica de «web scraping» para recoger y extraer automáticamente información de diferentes fuentes de acceso público en Internet, que puede contener datos personales e incluso datos personales especialmente protegidos,
    • el uso posterior como entrenamiento de ChatGPT.

OpenAI invocó el interés legítimo como base legitimadora para el uso de la técnica de web scraping, pero el amparo de esta base legitimadora implica:

  • la existencia de la necesidad del tratamiento,
  • su proporcionalidad, y
  • el equilibrio en la ponderación entre los intereses del responsable y el perjuicio en los derechos y libertades del interesado.

En este sentido, el informe:

  1. recuerda que las garantías adecuadas son muy relevantes para reducir el efecto indebido sobre los interesados y pueden inclinar la balanza en la ponderación del interés legítimo a favor del responsable del tratamiento;
  2. sugiere que estas garantías pueden consistir en:
    • implantar medidas técnicas con criterios precisos de recogida para no tomar determinadas categorías de datos,
    • excluir de la recogida de datos ciertas fuentes, como los perfiles públicos de las redes sociales;
  3. subraya que, para superar esta ponderación, tiene que implantarse medidas para eliminar o anonimizar los datos personales recogidos mediante web scraping antes de la fase de entrenamiento.

Además, para que el tratamiento de datos personales especialmente protegidos sea lícito, ha de poder aplicarse una excepción del artículo 9.2 del RGPD, como que se refiera a datos personales que el interesado ha hecho manifiestamente públicos (para lo que se requiere determinar que ha tenido la intención explícita de hacerlos accesibles al público en general).

Por último, el informe concluye que:

  • es difícil analizar caso por caso cada conjunto de datos recopilado con web scraping y, por ello, si las salvaguardias mencionadas contribuyen a cumplir con el RGPD, y
  • la carga de la prueba para demostrar la eficacia de las medidas siempre recae en OpenAI como responsable del tratamiento.

Legalidad de los datos de entrada, de salida y de entrenamiento

La entrada de datos en el sistema de ChatGPT incluye:

  • los “prompts”, que son los datos incorporados por los sujetos cuando interactúan con el sistema o contenidos en los archivos que introducen, y
  • el feedback de los usuarios sobre la calidad de la información de salida de ChatGPT.

OpenAI lo califica como “contenido” y se ampara para su tratamiento en el interés legítimo. También permite rechazar el uso del “contenido” con fines de entrenamiento del sistema.

El informe indica que los interesados deben ser informados de forma clara y demostrable de que dichos «contenidos» pueden utilizarse con fines de entrenamiento.

Licitud

El artículo 5.1.a) del RGPD determina que los datos personales deben tratarse de manera lícita, leal y transparente y que el responsable del tratamiento no debe transferir riesgos o responsabilidad a los interesados.

Por eso, el informe, respecto a ChatGPT, recuerda que:

  • no puede recaer en el interesado la responsabilidad de cumplir con el RGPD, por ejemplo, incluyendo una cláusula en los términos y condiciones que asigne a los usuarios la responsabilidad del contenido que introduzcan en el sistema, y
  • al estar a disposición del público, debe asumir que las personas introducirán datos personales y OpenAI sigue siendo responsable de la utilización de esos datos personales por el sistema.

Respecto a este problema, OpenAI ha presentado medidas para solucionarlo, que el grupo están revisando.

Transparencia y obligaciones de información

Cuando se extraen datos personales de fuentes de acceso público, como sitios web, se aplica el artículo 14 del RGPD, que describe la información que hay que facilitar cuando los datos personales no se hayan obtenido del interesado.

El informe tiene en consideración que el web scraping hace inviable informar a cada interesado, y admite aplicar la exención del apartado 5.b) del referido artículo 14, que alude a cuando la comunicación resulte imposible o suponga un esfuerzo desproporcionado.

Por el contrario, cuando los datos se obtengan del propio interesado al interactuar directamente con ChatGPT, es aplicable el artículo 13, referido a la obligación de informar al interesado, que ha de incluir también que ese “contenido” puede utilizarse para entrenar un sistema de inteligencia artificial.

Precisión de los datos

Respecto al principio de exactitud de los datos, previsto en el artículo 5.1.d) del RGPD:

  1. debe distinguirse entre:
    • datos de entrada: obtenidos con web scrapping o proporcionados por el usuario como “contenido”, y
    • datos de salida: los resultados de las interacciones con ChatGPT;
  2. ha de tenerse en cuenta que el objetivo del tratamiento de datos es entrenar a ChatGPT y no necesariamente proporcionar información objetivamente exacta.

Conforme al principio de transparencia del artículo 5.1.a) del RGPD, el responsable del tratamiento debe:

  • facilitar al usuario información adecuada sobre los mecanismos de creación de resultados probabilísticos y su limitado nivel de fiabilidad, incluyendo una referencia explícita al hecho de que el texto generado puede estar sesgado o ser inventado, y
  • reconocer, sin perjuicio de que lo anterior ayuda a evitar interpretaciones erróneas de los resultados, que estas medidas no son suficientes para cumplir el principio de exactitud de los datos.

Derechos del interesado

El informe también destaca la relevancia de que los usuarios puedan ejercer sus derechos de protección de datos de forma fácilmente accesible.

OpenAI informa sobre cómo ejercerlos en su política de privacidad. En concreto, mediante contacto por correo electrónico o en configuración de la cuenta. El grupo de trabajo manifestó que no lo entendía como suficiente y, por ello, OpenAI seguirá mejorando las modalidades previstas para facilitar el ejercicio de los derechos del interesado.

Cuestionario

Por último, el grupo de trabajo desarrolló un cuestionario, que añade como anexo al informe, para promover el orden de las investigaciones (varias autoridades de control utilizaron este cuestionario en sus comunicaciones con OpenAI).

El cuestionario aborda los siguientes aspectos:

  1. Preguntas generales (ejemplo: descripción del sistema, medios de contacto, etc.).
  2. Principios del tratamiento de datos personales.
  3. Evaluación del impacto en la protección de datos y gestión de riesgos.
  4. Legalidad del tratamiento.
  5. Derechos del interesado y transparencia.
  6. Transferencias de datos personales a otros países u organizaciones internacionales.
  7. Divulgación de datos personales a terceros.

1 Reglamento (UE) 2016/679 del Parlamento Europeo y del Consejo, de 27 de abril de 2016, relativo a la protección de las personas físicas en lo que respecta al tratamiento de datos personales y a la libre circulación de estos datos y por el que se deroga la Directiva 95/46/CE (Reglamento general de protección de datos).
2 Propuesta de Reglamento del Parlamento Europeo y del Consejo por el que se establecen normas armonizadas en materia de inteligencia artificial (Ley de Inteligencia Artificial) y se modifican determinados actos legislativos de la Unión (documento COM(2021)0206).
3 Según indica el informe, los LLM son modelos de aprendizaje profundo que se entrenan previamente utilizando grandes cantidades de datos. El análisis de estos conjuntos de datos masivos permite a los LLM aprender relaciones de probabilidad y dominar la gramática y la sintaxis de uno o varios idiomas, por lo que pueden responder al lenguaje humano produciendo un texto coherente que parece humano.