Confrontation et convergence : Le droit d’auteur à l’épreuve de l’intelligence artificielle

03/07/2024

Les 5 points à retenir

En contribuant à la démocratisation du processus créatif, l’IA bouscule les frontières du droit d’auteur

Pour protéger le droit d’auteur, les législateurs, à travers le monde, édictent de nouvelles règles encadrant ces systèmes d’intelligence artificielle

La capacité des systèmes d’intelligence artificielle à créer des œuvres autonomes interroge la notion même d’auteur

Entraînés sur des données, parfois protégées par le droit d’auteur, les modèles de langage contribuent à rendre floues les frontières entre les notions de « fair use » (un concept hérité du droit anglo-saxon), « d’œuvre transformatrice » et la violation des droits

En réponse aux litiges émergents, des solutions de protection, d’entente et des adaptations éthiques, technologiques et économiques sont envisagées

Introduction

Si elles sont d’une aide certaine, les IA génératives bousculent les règles et la conception de droit d’auteur, brouillant la frontière entre innovation et infraction. L’adaptation du droit d’auteur à l’ère de l’intelligence artificielle passe par les réformes législatives mais aussi par les stratégies éthiques, économiques et technologiques mises en œuvre pour répondre aux défis et aux litiges émergents.

La voix des textes

Tour d’horizon des contextes législatifs aux Etats-Unis, en Europe et en Chine.

Protéger la créativité humaine : l’approche américaine

Aux Etats-Unis, le droit d’auteur s’appuie sur le Digital Millennium Copyright Act de 1998 et le Compendium de l’Office américain du droit d’auteur. En mars 2023, cet office a publié des directives spécifiques à l’IA (Copyright Registration Guidance : Works Containing Material Generated by Artificial Intelligence), soulignant l’importance de la paternité humaine pour se prévaloir de la protection par le droit d’auteur et envisageant une analyse au cas par cas pour déterminer la nature humaine ou assistée par ordinateur des œuvres. Avec le décret sur l’IA du président Biden, de nouvelles orientations sur le droit d’auteur sont attendues, notamment sur les violations des œuvres utilisées dans l’entraînement des IA. Les procès en cours impliquant des entreprises telles que Google, Microsoft et OpenAI influenceront également la législation future sur le droit d’auteur lié à l’IA.

Le principe de transparence : un concept fondamental pour les législateurs européens

Dans l’Union européenne (UE), les états membres ont leurs propres lois sur le droit d’auteur, mais la législation européenne est basée sur une directive majeure (directive 2019/790). Depuis décembre 2023, l’AI Act précise que les fournisseurs de modèles d’IA à usage général doivent s’y conformer. Cette directive autorise, sous conditions, la reproduction et l’extraction d’œuvres pour la fouille de textes (« scraping ») et de données. Toutefois, les titulaires de droits peuvent (sauf pour la recherche) opter pour une exclusion. Lors du scraping ou de l’exploration de données, les fournisseurs sont donc tenus de respecter les réserves de droits explicites. Par ailleurs, l’AI Act prévoit de maintenir une documentation technique et de publier un résumé des données d’entraînement. Ainsi, le contenu généré (« output ») des grands modèles d’IA générative doit être correctement identifié comme étant généré par l’IA. Rappelons également que les fournisseurs de GPAI open source ne seront pas exemptés de la documentation sur les droits d’auteur (à l’exception de certaines PME ou start-up soumises à des obligations moindres, proportionnelles à leur taille).

Une utilisation équitable des contenus : le point de vue chinois

La loi modifiée sur le droit d’auteur de la République populaire de Chine (2020) impose des critères plus stricts en matière d’utilisation équitable et d’octroi de licences. Les mesures provisoires sur l’IA (2023) mettent l’accent sur le respect des droits de propriété intellectuelle dans le développement de l’IA et protège les sources de données dans le cadre de la propriété intellectuelle. Toutefois, le texte ne contient pas de détails plus précis.

IA-auteur, IA-pilleur : enjeux et controverses du droit d’auteur à l’ère de l’IA

La popularité des outils de génération de contenu via des plateformes d’IA s’accompagne de l’émergence de questions juridiques complexes encore non résolues. Alors que ces systèmes sont capables de créer des œuvres autonomes, comment le droit d’auteur s’applique-t-il à ces créations ? A qui appartiennent-elles ? En amont de la génération de ces contenus, Chat GPT, DALL-E, Midjourney et autres ont-ils le droit d’utiliser des œuvres existantes comme données d’entraînement ?

L’émergence de la question de l’IA-auteur

L’IA, en tant que « créateur », pose la question de la part de contribution humaine nécessaire pour revendiquer des droits d’auteur et force le législateur à se poser la question de la « quantité et la qualité de l’intervention humaine » lors du processus créatif.
Ainsi, en 2023, ce débat s’illustre dans la société civile lorsqu’un photographe allemand, Boris Eldagsen, remporte le Sony World Photography Awards dans la catégorie « Création ». En effet, la photo qu’il présente n’existe pas, elle a été entièrement générée par IA, et il n’en est pas l’auteur. Par cette démarche, Boris Eldagsen souhaitait interpeller les organisateurs du concours. Selon lui, les visuels générés par IA ne peuvent pas concourir dans les mêmes catégories que ceux générés par l’humain. Le photographe a décliné le prix mais a marqué les esprits.

Le pouvoir judiciaire, pour sa part, commence à se positionner. Ainsi, la cour suprême britannique a refusé l’attribution d’un brevet au motif que l’inventeur devait être un être humain ou une entreprise et non une machine. De même, le bureau américain du droit d’auteur a rejeté la demande de protection par le droit d’auteur d’œuvres d’art créées à l’aide de l’intelligence artificielle, et ce alors même que cette création a été primée lors d’un concours artistique.
Une œuvre créée par IA ne pourrait donc se prévaloir de droit d’auteur et être ainsi protégée.

L’utilisation d’œuvres existantes pour l’entraînement des algorithmes d’IA

Pour générer des contenus, les systèmes d’IA « se nourrissent » de nombreuses données, puisées sur Internet, dans des bases de données. Chatbots alimentés par des robots d’indexation d’articles de journaux normalement réservés aux abonnés, « pillage » de contenus éditoriaux de journaux, entraînement des modèles sur la base d’œuvres littéraires protégées par le droit d’auteur… les fournisseurs d’IA font l’objet de poursuites en lien avec les méthodes d’entraînement de leurs modèles de langage. Les dépôts de plaintes pour violation des droits d’auteur se multiplient. Deux cas récents concentrent l’attention.

Début janvier 2024, Nicholas Basbanes et Nicholas Ngagoyeanes déposent une plainte pour violation du droit d’auteur contre Microsoft Corp. et OpenAI. Ils accusent les deux entreprises d’avoir copié leur travail sans rétribution ni autorisation dans le but de « construire une entreprise commerciale massive ». Les deux journalistes affirment que les LLM produits sont des œuvres insuffisamment transformatrices et demandent donc des dommages-intérêts pour violation du droit d’auteur, perte d’opportunité de licence de leur travail et destruction du marché causée par les défendeurs. Ils sollicitent également une injonction permanente pour éviter la répétition de préjudices similaires.

Fin décembre 2023, le New York Times (NYT) accusait déjà Microsoft et OpenAI de violation du droit d’auteur, de concurrence déloyale et de dilution de marque par l’utilisation de leurs articles pour entraîner des modèles d’IA générative. Le journal conteste l’argument des défendeurs selon lequel cette utilisation constitue un « fair use » pour des fins transformatives. Le NYT affirme que cette pratique constitue un plagiat de son contenu, non soumis à compensation et affecte sa qualité et sa réputation. A ce stade de la procédure, les efforts de négociation n’ont pas abouti.

Ces affaires, très médiatisées, s’articulent autour de problématiques communes. En effet, elles démontrent que le droit d’auteur devient plus flou, plus difficile à protéger. L’IA brouille notamment les notions de « fair use » et « d’œuvre transformatrice ».
Dans ces deux affaires, les plaignants refusent de considérer les LLM comme des œuvres transformatrices. Formés pour une part à partir d’œuvres protégées, sans autorisation, ces modèles sont capables d‘en retranscrire des passages entiers, une caractéristique qui les empêcherait de se considérer comme des œuvres transformatrices. L’IA complique également la notion de « fair use » (usage légal d’une œuvre protégée par le droit d’auteur). Les profits générés par les systèmes d’IA suggèrent que l’entraînement des modèles avec des œuvres protégées ne poursuit pas un but de recherche, un objectif qui tombe sous le coup du « fair use ».

Face au mécontentement, bonnes pratiques et entente : les solutions intermédiaires

Consentement, rémunération, encadrement des usages de l’IA. Au sein de l’industrie du divertissement et des médias, des voix s’élèvent pour trouver un équilibre entre le développement de cette technologie et la protection des artistes.

L’éthique au service d’une utilisation raisonnée et raisonnable des systèmes d’IA

Pour résoudre ou pallier d’éventuels conflits, des propositions émergent, notamment sur la question de l’attribution de la paternité d’une œuvre à une intelligence artificielle. En France, Librinova, maison d’auto-édition, a choisi d’adhérer au label « Création humaine ». Ce label certifie qu’une œuvre écrite, audiovisuelle ou musicale a bien été conçue par un être humain.

Au sein des médias, des initiatives se mettent en place. En France, le Comité directeur sur les médias et la société de l’information (CDMSI) a adopté des lignes directrices sur la mise en œuvre responsable des systèmes d’intelligence artificielle (IA) dans le journalisme. Reconnaissant les apports des systèmes d’intelligence artificielle, ce guide rappelle les principes fondamentaux régissant leur mise en œuvre au sein d’un média, notamment l’évaluation des risques et la soumission systématique à la supervision et au contrôle humain. Ce document engage également les fournisseurs externes, les obligeant à prendre des responsabilités dans les solutions qu’ils proposent.

Les parades technologiques à la violation du droit d’auteur

Pour se prémunir d’une utilisation frauduleuse de leurs contenus, les auteurs peuvent y apposer un label, appelé watermark, identifiant si une image est vraie. Au-delà de permettre la traçabilité d’un contenu, ce filigrane est également dissuasif. Aux Etats-Unis, cette pratique est protégée par le Digital Millennium Copyright Act (DNCA), interdisant à quiconque de le supprimer. Charge à l’auteur d’attester de la présence de ce label sur ses œuvres. Dans le même esprit, un outil, Nightshade, modifie les images de manière imperceptible pour celui qui les regarde. Les modèles d’apprentissage, eux, perçoivent cette transformation, les obligeant à mal catégoriser les visuels.

En matière de violation du droit d’auteur, l’un des nœuds du problème se situe dans les données utilisées pour l’entraînement des modèles. Afin de démontrer l’absence d’intention malveillante, les développeurs sont donc encouragés à citer les œuvres utilisées, suivre les métadonnées des données de départ et les balises. Du côté des auteurs, l’opt-out, ou le blocage de la collecte de données par les robots d’indexation, est une pratique utilisée pour contrer la violation du droit d’auteur. CNN, Reuters, New York Time, France Médias Monde, Radio France, de nombreux médias à travers le monde ont opté pour cette démarche. Ils souhaitent ainsi favoriser l’adoption d’un accord, à l’image de celui trouvé pour la rétribution des droits voisins avec les plateformes telles que Google ou Facebook. Certaines plateformes prennent le contre-pied et s’auto-régulent. Stable Diffusion, par exemple, a accepté d’exclure de ses modèles d’entraînement les œuvres de Greg Rutkowski, un créateur d’œuvres digitales, dont le style apparaissait dans de très nombreux prompts (plus de 400 000 requêtes). Seule ombre au tableau, face à l’engouement pour les œuvres de l’artiste, un développeur a créé un nouveau modèle, entraîné sur ses œuvres et donc capable de les imiter, contre sa volonté…

Partenariats et compensations : les solutions économiques au maintien du droit d’auteur
Pour trouver un équilibre entre respect du droit d’auteur et développement des systèmes d’IA, les grands acteurs du secteur s’orientent vers des accords. Un principe soutenu par les artistes, notamment aux Etats-Unis où l’Authors Guild milite pour la création de licences collectives.

Des programmes de rémunération des artistes se mettent progressivement en place. Par exemple, Adobe compense les contributeurs dont le contenu a été utilisé dans la formation de Firefly, son modèle d’IA génératif formé sur des images d’Adobe Stock. De même, Shutterstock a créé un fonds de contribution et a signé un contrat de six ans avec OpenAI pour l’utilisation de ses images.
Dans le même esprit, le groupe de presse allemand Axel Springer a signé un accord avec OpenAI. Moyennant une contrepartie financière, la société est autorisée à utiliser les articles publiés sur les sites d’information du groupe pour entraîner Chat GPT. Dans cet accord, effectif au premier trimestre 2024, Axel Springer voit un nouveau modèle de financement, de génération de trafic et un moyen de monétiser ses contenus.

Conclusion

Les systèmes d’intelligence artificielle ont remodelé la perception du droit d’auteur. Dorénavant, les artistes doivent veiller sur leurs contenus, l’émergence de l’IA générative les obligeant à être acteurs de la protection de leur droit. Ce contexte impose également une réflexion collective, mondiale, un point qui met le législateur à l’épreuve.

D’ici 2030, « le marché mondial de l’IA dans les médias et le divertissement devrait atteindre 99,48 milliards de dollars », ce qui permet de mesurer l’ampleur de l’enjeu dont il est responsable.

Partager l'article :

Confrontation et convergence : Le droit d’auteur à l’épreuve de l’intelligence artificielle

Solution

Ressources

Réseaux