Comment empêcher les bots de ralentir votre site web ?

Comment empêcher les bots de ralentir votre site web ?

Les bots et crawlers qui circulent sur le web en permanence peuvent-ils ralentir votre site web? La réponse est « oui », ces IA peuvent grandement affecter ses performances.

En quelque sorte, votre site Web est un peu comme un café. Les gens entrent et naviguent dans le menu. Certains d’entre eux commandent des cafés, s’assoient, boivent et partent.

Imaginez un instant que la moitié de vos « clients » ne font qu’occuper des tables, gaspiller le temps de vos baristas et ne jamais acheter de café. Que se passe-t-il alors?

Les vrais clients risquent de partir parce qu’il n’y a pas de tables et que le service est lent! Eh bien, c’est malheureusement ce que font les bots et les crawlers d’IA!

Ces programmes automatisés engloutissent votre bande passante. Ils ralentissent aussi votre site et en chassent ainsi les clients réels.

Des études récentes montrent que près de 51% du trafic internet provient de bots. C’est à dire que plus de la moitié de vos visiteurs numériques gaspillent peut-être les ressources de votre hébergement web.

Dans cet article, nous vous aiderons à repérer les problèmes et à contrôler la performance de votre site facilement et simplement. Vous pourrez ainsi empêcher les bots de ralentir votre site web et nuire à sa réussite.

Un rappel rapide sur les bots

Les robots sont des logiciels automatisés qui effectuent des tâches sur Internet sans intervention humaine. Ils effectuent notamment les opérations suivantes :

  • Visiter des sites Web
  • Interagir de différentes manières avec le contenu numérique
  • Exécuter des fonctions spécifiques (définies par leur programmation)

Certains robots analysent et indexent votre site afin d’évaluer son contenu pour les classements des moteurs de recherche. D’autres passent leur temps à chercher dans votre contenu des ensembles de données d’IA.

Pire encore, certains bots diffusent du spam, génèrent de fausses critiques ou cherchent des failles exploitables de sécurité sur votre site Web.

Bien sûr, tous ces bots doivent donc être traités de manières différentes. Certains sont essentiels à la santé et à la visibilité de votre site Web. D’autres sont à peu près neutres, alors que quelques-uns sont carrément toxiques.

Il est donc important de connaître la différence entre ceux-ci. Vous pouvez alors décider quels bots bloquer et lesquels autoriser, afin de protéger votre site et sa réputation.

Les Bons et les Mauvais Bots Qui Visitent Votre Site Web: Qui Sont-Ils?

De Bons et de Mauvais Bots visitent votre site web

Les bots sont l’un des piliers d’internet.

Les bots jouent un rôle essentiel dans le fonctionnement du web moderne tel qu’on le connait. Ils opèrent dans l’ombre pour rendre le réseau beaucoup plus efficace et simple à utiliser.

Par exemple, le bot de Google visite chaque page sur internet et l’ajoute à une base de données pour le classement. Il peut ainsi aider à attirer un trafic de recherche précieux et essentiel au succès de votre site web.

Tous les bots n’apportent toutefois pas de valeur ajoutée. Certains sont même tout simplement mauvais, voire très dangereux. Voici donc un bref résumé des bots qu’il faut autoriser et de ceux qu’il faut bloquer.

Les Bots Amicaux (à traiter comme des VIP)

  • Les robots d’indexation des moteurs de recherche comme Googlebot et Bingbot sont des exemples de bots essentiels et utiles. Sans eux, votre contenu ne peut apparaître dans les résultats de recherche. Il faut donc à tout prix éviter de les bloquez pas, ou votre site deviendra invisible en ligne.
  • Les robots d’analyse collectent des données sur les performances de votre site. On peut notamment penser au bot de Google Pagespeed Insights ou celui de GTmetrix. Bloquer ces IA vous empêchera d’utiliser ces outils et d’analyser les performances de votre site web.

Les fauteurs de troubles (besoin de gestion)

  • Des « scrapers » qui volent votre contenu pour l’utiliser ailleurs (notamment pour le développement des IA)
  • Des bots de spam qui inondent vos formulaires et commentaires de messages indésirables
  • Les acteurs malveillant qui cherchent à pirater des comptes ou exploiter des vulnérabilités

La quantité de mauvais bots « avancés » circulant sur le web pourrait vous surprendre. En 2024, ils représentaient 55% de tout le trafic des bots, tandis que les bons représentaient 44%. Et les bots dans leur ensemble représente plus de la moitié du trafic internet.

Ces bots avancés sont sournois et de plus en plus élaborés. Ils peuvent désormais imiter le comportement humain, pour être plus difficiles à détecter. Par exemple, certains d’entre eux imitent les mouvements du curseur de la souris et les clics d’un internaute humain.

Les bots ralentissent-ils votre site web? Quelques signes à surveiller

Votre site peut être lent pour différentes raisons. Si ses performances sont mauvaises, ce n’est donc pas nécessairement à cause des bots. Plusieurs autres facteurs peuvent ralentir votre site.

Avant de vous lancer dans des solutions, il vaut donc mieux vous assurer que les bots sont vraiment votre problème. Pour ce faire, portez attention aux signes mentionnés ci-dessous.

Drapeaux rouges dans vos analyses

  • Des pics de trafic sans explication : Si votre nombre de visiteurs bondit soudainement mais que les conversions ne montent pas, les bots pourraient être responsables.
  • Taux de rebond élevé : si votre taux dépasse 90%, cela indique souvent des activités liées à des bots.
  • Tout ralentit : les pages prennent plus de temps à charger et les opérations d’exécutent très lentement.
  • Des modèles de session étranges : les humains ne visitent généralement pas un contenu pendant seulement quelques millisecondes. Il ne restent pas non plus sur une page pendant des heures. Ces données indiquent donc souvent des IA.
  • Vous commencez à recevoir beaucoup de trafic inhabituel. Celui-ci peut d’ailleurs provenir de pays où vous ne faites pas affaires.
  • Soumission de formulaires avec texte aléatoire : il s’agit d’un comportement classique de certains bots.
  • Votre serveur est submergé : vous voyez un nombre démesuré de visiteurs, dont une part significative sont en fait factices.

Vérifier les journaux de votre serveur

Les journaux de serveur de votre site web contiennent des enregistrements sur chaque visiteur. Ils peuvent donc vous aider à identifier des problèmes liés au bots visitant votre site web.

Voici ce qu’il faut rechercher :

  • Trop de requêtes externes provenant de la même adresse IP. Cela peut indiqué qu’un bot est « coincé » sur votre site.
  • Des demandes d’URL inhabituelles qui n’existent pas sur votre site
  • Des chaînes d’agent utilisateur étranges. Ceux-ci correspondent à l’identification que les bots fournissent au moment de la connexion.

Si vous voyez des modèles qui ne correspondent pas au comportement normal de navigation humaine, il est temps d’agir.

Le problème posé par les « crawlers » des développeurs d’IA

Le problème de GPTBot et des "crawlers" des développeurs d'IA

Récemment, de nombreux propriétaires de sites Web ont signalé des problèmes avec les robots d’exploration de l’IA. Ceux-ci génèrent souvent des modèles de trafic anormaux.

Selon une étude, le GPTBot d’OpenAI a fait 569 millions de requêtes en un seul mois. Pendant ce temps, le bot de Claude a fait, pour sa part, 370 millions sur le réseau de Vercel.

Les « scrapers » des IA sont donc venu s’ajouter au problème déjà présents du trafic de bots. Plusieurs d’entre eux ont d’ailleurs des comportements de « bots malveillants », et ignorent les directives qui leurs sont adressées.

Rechercher :

  • Pics d’erreur dans vos journaux : Si vous voyez soudainement des centaines ou des milliers d’erreurs 404, vérifiez s’il s’agit de robots AI.
  • Des URL extrêmement longues et insensées : les robots de l’IA peuvent demander des URL bizarres (qui n’existent pas).
  • Paramètres récursifs : Recherchez des commandes et paramètres répétés sans fin.
  • Pics de bande passante : Des pics extrêmes de trafic peuvent parfois être causés par des scrapers d’IA. La société de documentation technique renommée Readthedocs, a déclaré qu’un crawler AI a téléchargé 73 Teraoctets de fichiers ZIP depuis son site. Plus de 10 To a notamment été téléchargé en une seule journée, coûtant plus de 5000 $ en frais de bande passante à l’entreprise.

Ces modèles peuvent indiquer que les robots d’IA fonctionnent mal ou sont manipulés pour causer des problèmes.

À quel moment obtenir de l’aide technique pour gérer les bots sur votre site web?

Si vous remarquez ces signes, mais que vous ne savez pas quoi faire ensuite, vous pouvez faire appel à une aide professionnelle. Tournez-vous vers votre développeur (ou faites appel à aux développeurs d’Ex2) afin de vérifier les agents utilisateurs spécifiques.

Il existe de nombreuses chaînes d’agents utilisateur enregistrées que vous pouvez rechercher sur Google pour bloquer. Notez toutefois que les chaînes changent. Cela signifie donc que vous pourriez finir avec une liste assez longue au fil du temps.

Vous n’avez pas de développeur au sein de votre équipe ? L’équipe d’Ex2 peut analyser vos journaux et mettre en œuvre des mesures de protection. Nos experts ont déjà vu ces problèmes et savent exactement comment les gérer.

4 étapes simples pour contrôler les bots et les empêcher de ralentir votre site web

contrôler les bots et les empêcher de ralentir un site web

Maintenant, la bonne partie : comment empêcher ces robots de ralentir votre site. Retroussez vos manches et mettons-nous au travail.

1. Créer un fichier robots.txt approprié

Le fichier texte simple robots.txt se trouve dans votre répertoire racine. Il sert à indiquer aux « bots bien élevés » quelles parties de votre site ils ne devraient pas accéder.

Vous pouvez généralement accéder au fichier robots.txt pour pratiquement n’importe quel site web en ajoutant un /robots.txt à son domaine.

Il n’y a toutefois aucune obligation pour les bots d’accepter les règles. Les bots utiles le respecteront, mais plusieurs indésirables choisissent d’ignorer les règles.

Il est néanmoins préférable d’ajouter un fichier robots.txt de toute façon. Ainsi, les bons bots ne commencent pas à indexer la page de connexion administrateur, les pages post-paiement, les pages de remerciement, etc.

Comment mettre en œuvre

1. Créer un fichier texte simple nommé robots.txt

Cette étape est bien sûr très simple et ne demande pas d’explications.

2. Ajoutez vos instructions en utilisant le format suivant :
User-agent : * # Cette ligne s’applique à tous les robots
Disallow : /admin/ # Ne pas explorer la zone d’administration
Disallow : /private/ # Stay out of private folders
Crawl-delay: 10 # Attendre 10 secondes entre les demandes
User-agent : Googlebot # Règles spéciales uniquement pour Google
Allow: / # Google peut accéder à tout
3. Téléversez le fichier dans le répertoire racine de votre site Web

La directive « Crawl-delay » représente une arme secrète dans votre manche. Elle force les bots à attendre entre les requêtes. Elle les empêche ainsi de saturer votre serveur.

La plupart des principaux robots d’exploration respectent cela. Il faut toutefois noter que Googlebot suitson propre système (qui est contrôlé via la Google Search Console).

Conseil de pro : Testez votre fichier robots.txt avec l’outil de test de Google. Vous pouvez ainsi vous assurer que vous n’avez pas accidentellement bloqué du contenu important.

2. Limitation du taux de configuration

La limitation des tarifs limite le nombre de requêtes qu’un seul visiteur peut faire au cours d’une période donnée.

Il empêche donc les bots de surcharger votre serveur afin que les internautes humains puissent naviguer sur votre site sans interruption.

Comment mettre en œuvre

Si vous utilisez un serveur Apache (commun aux sites WordPress), ajoutez les lignes suivantes à votre fichier . htaccess :

RewriteEngine On
RewriteCond %{REQUEST_URI} !(.css|.js|.png|.jpg|.gif|robots.txt) $ [NC]
RewriteCond %{HTTP_USER_AGENT} !  Googlebot [NC]
RewriteCond %{HTTP_USER_AGENT} !  Bingbot [NC]
# Allow max 3 requests in 10 seconds per IP
RewriteCond %{REMOTE_ADDR} ^([0-9]+.[0-9]+.[0-9]+.[0-9]+)$
RewriteRule . * - [F,L]

Si vous utilisez plutôt Nginx, vous devez ajouter ceci à la configuration de votre serveur :

limit_req_zone $binary_remote_addr zone=one:10m rate=30r/m;
server {

location / {
limit_req zone=one burst=5;

}
}

De nombreux panneaux de contrôle d’hébergement (comme cPanel) offrent aussi des outils de limitation de taux dans leurs sections de sécurité.

Astuce pro : Commencez par des limites prudentes et assez élevées (comme 30 requêtes par minute) et surveillez votre site. Vous pouvez ensuite resserrer les restrictions si le trafic de bots continue de poser problème.

3. Utiliser un réseau de diffusion de contenu (CDN)

Les CDN font principalement deux choses importantes pour votre site web :

  • Distribuer le contenu à travers les réseaux de serveurs mondiaux afin que votre site soit livré rapidement dans le monde entier
  • Filtrer le trafic avant qu’il n’atteigne le site web pour bloquer les bots et attaques non pertinents

Dans le cadre de cet article, c’est la partie « bloquer les bots non pertinents » qui nous intéresse. Les autres avantages sont toutefois également utiles.

La plupart des CDN incluent une gestion intégrée des bots qui identifie et bloque automatiquement les visiteurs suspects. Le CDN de Cloudflare va toutefois plus loin, et offre des outils avancés, comme un Labyrinthe IA.

Comment mettre en œuvre

  • Inscrivez-vous à un service CDN comme Cloudflare, CloudFront ou Fastly.
  • Suivez les instructions de configuration.
  • Configurez les paramètres de sécurité pour activer la protection contre les bots.

Une fois configuré, votre CDN vous offrira les avantages suivants :

  • Cache du contenu statique pour réduire la charge sur le serveur d’hébergement.
  • Filtrer le trafic suspect avant qu’il n’atteigne votre site.
  • Bloquer automatiquement les acteurs malveillants connus.
  • Appliquer l’apprentissage automatique pour différencier les demandes légitimes et malveillantes.

Conseil de pro : le niveau gratuit de Cloudflare comprend une protection de base contre les bots. Celle-ci fonctionne bien pour la plupart des sites d’entreprises. Les plans payants vous offrent des options plus avancées, si vos besoins sont plus importants.

4. Ajouter des CAPTCHA pour les actions sensibles

Les CAPTCHA sont ces petites énigmes qui vous demandent d’identifier les feux de circulation ou les vélos.

Ils sont un peu ennuyeux pour les humains mais presque impossible pour la plupart des bots. Cette particularité en fait des gardiens parfaits pour les éléments importants de votre site.

Comment mettre en œuvre

  • Inscrivez-vous à reCAPTCHA (gratuit) ou hCaptcha (payant) de Google.
  • Ajoutez le code CAPTCHA à vos formulaires sensibles :
    • Pages de connexion
    • Formulaires de contact
    • Processus de paiement
    • Sections des commentaires

Pour les utilisateurs de WordPress, des plugins (comme Akismet) peuvent gérer cela automatiquement pour les commentaires et les soumissions de formulaires.

Astuce pro : Les CAPTCHA invisibles modernes fonctionnent dans les coulisses pour la plupart des visiteurs. Ils ne montrent des « défis » qu’aux utilisateurs suspects. Vous pouvez donc utiliser cette méthode pour obtenir une protection sans importuner vos clients légitimes.

Pour conclure nos conseil pour contrôler les bots et les empêcher de ralentir votre site web

Le nombre de bots circulant sur le web ne cesse de croitre au fil du temps. Ces IA représente désormais plus de la moitié du trafic sur Internet.

Il est donc important de prendre des mesures pour contrôler les bots qui visitent votre site web. Sans cela, ils pourraient le submerger et le rendre moins attrayants pour les humains.

Nous espérons que cet article vous a plu et vous a aidé à empêcher les bots de ralentir votre site web Si c’est le cas, nous vous invitons à consulter nos autres articles et tutoriels.

Notre base de connaissance contient aussi sans doute des réponses à toutes vos questions en liens avec vos projets web.