IAG y derechos de autor: del mito de la máquina que piensa a la realidad de la reproducción literal y del puro cálculo matemático

17/06/2025

IAG y derechos de autor: del mito de la máquina que piensa a la realidad de la reproducción literal y del puro cálculo matemático

                                                                                                          Jorge Corrales, Director general de CEDRO

La experiencia y los análisis efectuados en los últimos años vienen a confirmar que los contenidos editoriales protegidos por el Derecho de Autor son utilizados para el desarrollo de los sistemas de inteligencia artificial generativa (IAG) y cómo, en distintos formatos y de diferentes maneras, son reproducidos en todas las fases de desarrollo de dicho sistema.

Esta explotación de las obras, de acuerdo con la normativa y jurisprudencia europea, exige la autorización de sus autores y editores y una remuneración justa por estos usos, algo que parecen olvidar los desarrolladores, privados y públicos, de este software de IA. 

Como no podía ser de otra manera, el planteamiento arriba expuesto, en cuanto a la utilización de obras protegidas, ha venido a ser refrendado por un representante del Barcelona Supercomputing Center (BSC) en un taller sobre IA y derechos de autor, organizado por la Comisión JURI del Parlamento Europeo, el pasado 4 de junio. 

El representante del BSC puso de manifiesto que en el desarrollo de la IAG «cada fase —ingestión, procesamiento, aprendizaje— necesariamente implica acceder y copiar contenido protegido, no meramente ideas». 

Y esto es así porque en el entorno digital, tradicionalmente las obras, por ejemplo, los libros, periódicos, revistas y partituras, se han representado mediante un código binario -secuencias de ceros y unos-, que permite almacenar y procesar la información. Esta codificación almacenaba implícitamente también la información relativa al orden de las palabras y su posición en el texto.  Se trata, pues, de estándares que permitían y permiten la reproducción digital de obras, generando una especie de ciclo de traducción entre el lenguaje humano y el lenguaje de las máquinas, permitiendo que estas lo entiendan. 

Algunos de los primeros desarrollos modernos de la IAG seguían la idea secuencial de la era binaria. Pero no hay que dejarse engañar, esta tecnología nació con el objetivo de reducir el coste de almacenamiento de la información y aumentar la eficiencia en la gestión de esta. Sin embargo, ahora, con el desarrollo de los modelos basados en Transformers, los procedimientos de traducción del lenguaje humano al lenguaje máquinas han cambiado. 

La tecnología Transformers permite reproducir de forma literal la información y la expresión original de la obra. De acuerdo con la RAE, literal significa: «… conforme a la letra del texto, o al sentido exacto y propio...». A diferencia de otros sistemas que codifican las palabras en formato binario —ceros y unos—, los Transformers utilizan representaciones vectoriales multidimensionales,  mediante una  técnica conocida como embedding

Esta técnica de embedding codifica la siguiente información: 

  • Vector de tokens de la palabra:  reproduce la palabra. 

  • Vector de posición: reproduce la posición de la palabra en la frase, texto, etc. Sin la inclusión de esta información de posición no se podría desarrollar la parte de valor semántico (significado) y de contexto del modelo. 

  • Vector de significado (semántica): reproduce el significado que el autor/a ha dado a la palabra en el texto.  

  • Vector de contexto: reproduce la relación de la palabra con el contexto. 

Por tanto, y sin necesidad siquiera de ser preguntado sobre el acceso legítimo a las obras que son utilizadas para el desarrollo de las aplicaciones de IAG, el representante del BSC afirmó que, en la fase de “ingestión” —preparación del repositorio inicial de obras, conocido técnicamente como “dataset”— es necesario acceder y reproducir obras protegidas. Esto implica que en la primera etapa en el desarrollo de la IAG se requiere la reproducción digital de todas las obras incluidas en el repositorio, para lo cual es necesaria la autorización de sus titulares de derechos. Y este punto es clave antes de analizar si cabría la aplicación del límite de minería de textos y datos previsto en el artículo 4 de la Directiva 2019/790, que permitiría el uso de las obras sin autorización para algunos fines, ya que antes sería necesario contar con ese acceso legítimo a dichas publicaciones para que fuera legal

Asimismo, cuando el representante del BSC reconoce que en la fase de procesamiento resulta imprescindible reproducir las obras para transformar cada palabra en tokens, unidades mínimas que el modelo utiliza para operar (por el referido coste de almacenamiento y de cálculo), y demás vectores comentados.  

En ellos se incluye las características semánticas y contextuales del contenido, esto es, la expresión original de las obras protegidas por los derechos de autor. Por lo que también aquí sería necesario el permiso de los titulares. Múltiple es la jurisprudencia del TJUE que lo confirma: «…la protección del derecho de autor abarca las expresiones pero no las ideas, procedimientos, métodos de operación o conceptos matemáticos en sí…». Véase, en este sentido, la sentencia de 2 de mayo de 2012, SAS Institute, C‑406/10. Cuestión también es señalada por el propio BSC en su presentación 

De igual forma, el representante del BSC explicó que durante la fase de entrenamiento de un modelo de IAG también es necesario acceder y reproducir contenidos protegidos como parte del proceso técnico, pero en este caso en forma de los referidos vectores obtenidos en el paso anterior. Estos vectores, una vez introducidos en forma de matrices en la red neuronal, permiten realizar cálculos matemáticos —como la obtención de derivadas— para reducir el error entre el valor real y el que devuelve el modelo.  Por tanto, esta fase implica necesariamente otra reproducción más, efectuada en un formato diferente de la obra nacida directamente del autor. 

El representante del BSC expuso, además, que en la fase de generación del modelo —es decir, cuando este es utilizado por los usuarios— no se produce acceso ni reproducción directa de las obras o de reproducciones de las obras originales del autor por parte del modelo de inteligencia artificial generativa.  

Ahora bien, aunque el modelo no accede directamente a las obras o a las expresiones en dicho proceso de generación, los resultados que genera (comúnmente denominados outputs) pueden reproducir parcial o totalmente contenidos protegidos y, también, transformarlos y comunicarlos públicamente. A pesar de ello, los desarrolladores, a mi juicio, conscientemente no implementan medidas tecnológicas que bloqueen estos resultados que afectan directa y gravemente a los derechos de autor, a la normal explotación de las obras y al trabajo realizado por autores/as y editores/as. Además, hay que tener en cuenta que los modelos desarrollados por el BSC, como MarIA y ALIA, han sido puestos a disposición de usuarios empresariales con fines comerciales. 

Por cierto, el representante del BSC también advierte en su intervención sobre la dificultad de garantizar la trazabilidad del uso de los contenidos protegidos en las respuestas o resultados (output) de las aplicaciones de IAG. Esta cuestión ya ha sido contemplada por el legislador: tanto el artículo 17 de la Directiva 2014/26/UE como el artículo 167 de la Ley de Propiedad Intelectual establecen que la responsabilidad de reportar los usos de las obras es una obligación que recae en el usuario del material protegido, una calificación que el propio BSC no cuestiona. 

Por tanto, la existencia de dificultades técnicas para garantizar la trazabilidad, la información sobre el origen de las obras utilizadas para obtener esos los resultados, no encajan con la obligación legal de respeto a los derechos de los titulares ni justifica la falta de remuneración a los mismos. Esta obligación es claramente del desarrollador y, en ningún caso, puede trasladarse a los titulares, quienes deben dar la autorización y recibir la remuneración que legítimamente les corresponde. 

Es importante señalar la necesidad de establecer medidas de seguridad eficientes sobre las bases de datos vectoriales que muchos de los desarrolladores utilizan para almacenar los embeddings —es decir, las representaciones vectoriales de obras protegidas—ya que no está claro que sean irreversibles y que permita reconstruir las obras, en todo o en parte, lo que incrementa el riesgo de infracciones contra los derechos de autor. 

Como resumen, un nuevo cambio de tecnología para reproducir obras o su expresión original, es decir de codificación binaria a embedding, ha propiciado un debate que no es real y que ha sido motivado por intereses que amenazan con desarticular todavía más los principios fundamentales de nuestra sociedad.  

Hemos de recordar que, durante los últimos treinta años se han desarrollado políticas de rent seeking — según las denomina la teoría económica— sobre los derechos de los autores y editores. Estas políticas, basadas en conceptos legales como fair use o límites o excepciones al derecho de autor, han potenciado a medio y largo plazo los siguientes resultados: 

  • El desarrollo de barreras de entrada que limitan la competencia en el mercado de servicios digitales, empoderando a aquellas empresas que han podido desarrollar acciones de venta cruzada de producto a precio 0. 

  • El desarrollo de inestabilidad en los entornos sociales, al primar en dichas empresas únicamente objetivos económicos, obviando su responsabilidad sobre cuestiones sociales y medioambientales. 

  • El debilitamiento del impacto social de los valores del sector de la cultura escrita y por tanto al propio sector y a la sociedad. 

Por todo ello, y con el objetivo de conseguir el pleno respeto a los derechos de autores y editores en el escenario que plantea la IAG, es fundamental analizar convenientemente los intereses que no se explicitan y que están detrás de estos nuevos desarrollos tecnológicos. Sin olvidar claro está, ir más allá de un simple análisis de conflicto de intereses, que en muchos casos es disfrazado de escasa capacidad presupuestaria a corto plazo. 

Y termino con una pregunta: así como en su momento, con el desarrollo de la tecnología digital basada en código binario, fue necesario un tiempo para acordar un estándar de reproducción de la obra —como lo fue el código ASCII—, ¿no estaremos, quizás, ante una situación similar? ¿Acaso no veremos, con el tiempo, la creación de un nuevo estándar para la reproducción de la obra o de la expresión de la obra en el espacio multidimensional de los embeddings?

Imagen: © Shutterstock

Ver más comentarios
Gracias por el comentario, su comentario debe ser aprobado primero
Nuevo código

Os invitamos a comentar las entradas de nuestro blog.

Los comentarios están moderados, no aparecen en el blog de forma inmediata.

Se publicarán todos los comentarios salvo los que no tengan que ver con los temas tratados o contengan insultos o descalificaciones.

De acuerdo con lo establecido en la legislación vigente, le informamosque los datos que facilite serán tratados por CEDRO para poder tramitar su comunicación. Sus datos no serán cedidos a terceros, salvo obligación legal.

Usted cuenta con los derechos de acceso, rectificación, supresión, oposición, limitación al tratamiento y portabilidad, respecto de sus datos de carácter personal, así como con la posibilidad de revocar su consentimiento, pudiéndolos ejercitar por escrito a la dirección cedro@cedro.org, donde haga mención a su nombre, apellidos y dirección de correo electrónico. Para más información pinche en la Política de Privacidad.

comment-avatar