Cloudflare offre un outil gratuit pour bloquer les bots des IA
Plus tôt cette année, Cloudflare Inc. a annoncé un outil simple pour les propriétaires de sites Web afin d’empêcher les bots liés au IA de « gratter » leur contenu en ligne.
L’entreprise propose maintenant des capacités supplémentaires remettant d’aider les propriétaires de sites web à contrôler la façon dont leur contenu est utilisé par les modèles d’IA et même essayer de gagner de l’argent.
Cloudflare a déclaré que son produit appelé AI Audit fournit une suite d’outils pour aider les clients à comprendre comment les modèles d’IA utilisent leur contenu.
Une fois que ceux-ci comprennent à quoi sert leur contenu, ils pourront alors décider s’ils sont prêts à laisser les développeurs d’IA y accéder ou non.
Les propriétaires de sites web pourront fixer ce qu’ils considèrent comme un « prix juste » pour utiliser leur contenu à des fins de formation sur les modèles d’IA et autres.
Le « grattage de données » par les IA: une pratique controversée mais omniprésente
Le « grattage de données » est une notion qui attire de plus en plus d’attention, et suscite un nombre croissant de litiges juridiques.
Cette pratique consiste à visiter les sites web avec des bots pour en extraire le contenu. Elle est devenue extrêmement courante dans l’industrie de l’IA, qui est toujours avide de nouvelles données.
Internet offre une vaste quantité de données soi-disant «gratuites» qui peuvent être utilisées pour former des modèles d’IA.
Ce prélèvement massif de données est toutefois controversé, et représente un « zone grise » au niveau légal. De nombreux créateurs et éditeurs de contenu qui soutiennent que cette pratique est injuste. D’autant plus qu’ils ne sont pas au courant et n’ont pas donné leur approbation.
Les plus grands développeurs d’IA sont aujourd’hui tous coupables de dépouiller le contenu du Web sans autorisation. Cela inclut OpenAI, Google LLC, Meta Platforms Inc., Stability AI Ltd., IBM Corp. et Microsoft Corp.
Ces entreprises admettent ouvertement qu’elles se sont aidées elles-mêmes pour le contenu des éditeurs. Elles font toutefois valoir que cette pratique relève de la doctrine de « l’utilisation équitable », ce qui les exonèrerait de verser des compensations.
De nombreuses critiques dénonce toutefois l’impact négatif du grattage sur les éditeurs et créateurs de contenu. Ceux-ci perdent du trafic web à la suite de leur contenu gratté, car celui-ci est alors récupéré par les outils d’IA.
Les sites Web peuvent alors perdre beaucoup de trafic et de revenus potentiels aux chatbots d’IA qui utilisent leur contenu pour répondre rapidement aux requêtes des utilisateurs.
Les chatbots fournissent généralement aux utilisateurs toutes les informations qu’ils ont demandé. Il y a donc peu d’incitation pour ceux-ci de réellement visiter ce site web. Et ce, même si le chatbot le cite explicitement comme étant la source de sa réponse.
De nombreuses poursuites liées à la propriété des données
Certains éditeurs ont pris des mesures drastiques pour empêcher les développeurs d’IA d’accéder au contenu de leurs sites Web.
On peut notamment citer le New York Times, CNN, Reuters et le Chicago Tribune, qui ont tous bloqué le robot d’exploration de sites web GPTBot d’OpenAI.
D’autres ont plutôt choisi de permettre aux développeurs d’IA d’accéder à leur contenu en échange d’une compensation financière.
C’est notamment le cas de Reddit Inc., qui a annoncé en avril le lancement d’une interface de programmation d’applications. Celle-ci permettra aux entreprises d’IA de payer pour accéder à son contenu, assurant ainsi une rémunération équitable.
L’outil de Clouflare contre les bots d’IA veut redonner le contrôle aux créateurs de contenu
Avec son nouvel ajout, Cloudflare souhaite aider tous les développeurs de sites web à faire quelque chose de similaire. L’audit de l’IA est conçu pour redonner le contrôle aux créateurs de contenu. Il peut ainsi y avoir un échange plus transparent entre tous les partis.
Son outil simple s’active en un clic. Il empêche alors automatiquement tous les types de gratteurs d’IA d’accéder à leur contenu. Cloudflare offre aussi une toute nouvelle suite d’outils d’analyse. Ceux-ci peuvent aider les propriétaires de sites web à comprendre ce que font les bots d’IA sur leurs propriétés.
Cloudflare souhaite ainsi aider les propriétaires de sites à comprendre pourquoi, quand et combien de fois des modèles d’IA accèdent à leurs pages web. Les outils font même faire une distinction entre les bots d’IA qui créditent la source de leurs données et ceux qui ne le font pas.
C’est vous qui fixez le prix de vos données
L’audit IA de Cloudflare fournit également un outil permettant aux propriétaires de sites Web de déterminer un prix équitable pour permettre aux bots d’accéder à leur contenu. Celui-ci se base sur des tarifs courants standard négociés par les grands éditeurs tels que Reddit.
Cloudflare estime que de nombreux propriétaires de sites plus petits manquent des ressources et de l’expertise nécessaires pour comprendre la valeur de leur contenu et négocier des accords avec les entreprises d’IA. Cet outil leur permet donc d’éviter de demander des prix insuffisants.
De plus, les entreprises d’IA elles-mêmes n’ont tout simplement pas les ressources nécessaires pour conclure un accord avec chaque site web qu’elles dévorent. Après tout, ceux-ci se comptent en dizaines de millions.
L’onglet Audit de l’IA de Cloudflare permet de définir les métriques couramment utilisées pour établir un prix équitable pour le scraping. Celles-ci incluent notamment le taux d’exploration pour certaines sections de contenu d’une page ou d’un site Web entier.
Sur la base de ces données, Cloudflare recommandera ensuite un prix et un flux de transactions. Cela permet aux développeurs d’IA de trouver rapidement de nouvelles sources de contenu et de les payer, tout en assurant un dédommagement aux créateurs.
L’outil de Cloudflare contre les bots d’IA protège la valeur de vos données
Holger Mueller de la société de recherche et de conseil, Constellation Research Inc., a déclaré que les données font toute la différence entre les bons et les mauvais modèles d’IA. Il dit également qu’Internet public est peut-être la plus grande source d’informations librement disponibles pour les développeurs.
« Les données extraites des sites Web ont joué un rôle déterminant dans l’essor de l’IA générative, mais il existe des arguments juridiques et moraux selon lesquels la plupart des contenus publiés en ligne sont exclusifs et confidentiels, même si tout le monde peut les voir. Les créateurs de contenu sont désireux de protéger les données qu’ils créent et publient en ligne parce qu’ils veulent en être les plus grands bénéficiaires, il est donc logique que Cloudflare leur donne un moyen d’éviter qu’elles ne soient grattées. » – Holger Mueller de Constellation Research Inc
Le co-fondateur et PDG de Cloudflare, Matthew Prince, a déclaré que l’intelligence artificielle transformera à jamais la façon dont les gens interagissent avec le contenu en ligne.
Il est donc nécessaire pour toutes les parties prenantes de se réunir et de déterminer à quoi ressemblera cet avenir. Il croit toutefois qu’il est important que les créateurs de contenu puissent posséder et contrôler leur contenu.
« Si les créateurs de contenu n’ont pas ce contrôle, la qualité des informations en ligne se détériorera ou sera exclusivement verrouillée derrière des murs payants », a déclaré M. Prince. « Avec l’échelle et l’infrastructure mondiale de Cloudflare, nous pensons pouvoir fournir les outils et définir les normes pour donner aux sites Web, aux éditeurs et aux créateurs de contenu le contrôle et une rémunération équitable pour leur contribution à Internet, tout en permettant aux fournisseurs de modèles d’IA d’innover. » – Matthew Prince, co-fondateur et PDG de Cloudflare
Pour conclure sur l’outil gratuit de Cloudflare contre les bots d’IA
Le grattage des données pour le développement des intelligences artificielles est un phénomène controversé mais incontournable du web, à l’heure actuelle.
Les robots d’exploration des développeurs d’IA s’accaparent des quantités astronomiques de donnés sans demander la permission. C’est pourquoi le nouvel outil de Cloudflare contre les bots des IA est aussi important.
Cette nouvelle fonctionnalité vous laisse choisir entre permettre ou interdire l’accès à vos données. Si vous choisissez de le permettre, vous pouvez déterminer le prix que devront payer les développeurs des IA pour y avoir droit. En d’autres mots, Cloudflare vous offre une toute nouvelle façon de monétiser votre contenu.
Nous espérons que cet article vous a éclairé sur le nouvel outil de Cloudflare contre les bots d’IA. Si c’est le cas, nous vous invitons à consulter nos autres autres articles et tutoriels.
N’hésitez pas non plus à consulter notre base de connaissance. Vous y trouverez une foule d’articles détaillés pouvant répondre à toutes vos questions web.