On va parler de quoi ?
Le fichier robots.txt c’est quoi ?
Quelles instructions dans robots.txt ?
Tester robots.txt avec la Search Console
Impacts de l’absence du robots.txt sur votre SEO
Comment le fichier robots.txt optimise votre SEO ?
Sur Internet, vous connaissez peut-être les robots d’indexation, aussi appelés « crawlers » ou « bots ». Ces robots sont utilisés par les moteurs de recherche pour explorer et analyser les pages web. Les crawlers analysent la structure du site et indexent les pages qui en découlent. Selon leur pertinence, les crawlers déterminent le positionnement des pages dans la SERP.
Cependant, toutes les pages d’un site ne sont pas nécessairement utiles pour le SEO. C’est là qu’intervient le fichier robots.txt. Il permet d’orienter les robots d’indexation sur les pages à explorer ou à ignorer, selon leur importance pour le référencement de votre site. Cet article vous aide à comprendre ce qu’est le fichier « robots.txt », et comment il améliore votre SEO.
Le fichier robots.txt c’est quoi ?
En pratique, le fichier robots.txt est la première entité que les robots d’indexation lisent lorsqu’ils explorent un site. Il doit être placé à la racine du site web, c’est-à-dire dans le répertoire principal du site. Il contient un ensemble d’instructions qui guident les bots sur les pages qu’ils peuvent explorer ou non.
Quelles instructions dans le robots.txt ?
Le fichier robots.txt est composé de plusieurs instructions, qui permettent entre autres de maximiser l’efficacité du crawl afin de concentrer les efforts des robots d’indexation sur les pages les plus importantes dans l’intérêt de votre SEO. Voici les principales instructions qu’on retrouve dans le fichier :
L’instruction « User-agent »
L’instruction « User-agent » permet de spécifier quel robot d’indexation doit suivre les règles qui suivent dans robots.txt. Cependant, il existe des milliers de crawlers utilisés par les moteurs de recherche. Parmi les plus connus, on retrouve :
- Googlebot
- Bingbot
- Yandexbot
- Applebot
- LinkedInBot
En raison du nombre de crawlers existants, cette instruction est cruciale pour préciser quel bot suivra les règles établies.
L’instruction « Disallow»
Cette instruction est importante, car elle permet de bloquer l’exploration et donc l’indexation des pages qui n’ont aucun impact SEO. Généralement, l’instruction Disallow est utilisée pour ignorer le crawl des pages techniques, privées ou non pertinentes.
L’instruction « Allow»
Si vous avez une règle Disallow qui empêche l’exploration d’un répertoire, mais que vous souhaitez tout de même autoriser l’accès à certaines sous pages, vous pouvez utiliser la règle Allow pour les rendre accessibles. Par exemple, un site peut bloquer certains répertoires pour éviter l’exploration de contenus non pertinents. Cependant, il peut être nécessaire d’utiliser l’instruction Allow pour donner accès aux fichiers CSS et JavaScript nécessaires pour le rendu de la page.
L’instruction « Sitemap»
Lorsque les robots de Google explorent le fichier robots.txt, il est judicieux d’inclure l’instruction relative au sitemap XML afin d’optimiser le temps de crawl. Cette option permet à Google de trouver rapidement le plan du site, facilitant l’exploration des pages stratégiques et améliorant ainsi l’efficacité de l’indexation.
Tester robots.txt avec la Search Console
L’outil Google Search Console vous permet de tester et de valider les instructions de votre fichier robots.txt. Pour l’utiliser, vous devez d’abord créer un compte et authentifier votre site.
Une fois cette étape réalisée, accédez à la section « Paramètres » puis cliquez sur « Fichier robots.txt » dans l’onglet « Exploration ». Ensuite, saisissez l’URL à tester et vérifiez qu’elle est bien accessible pour Googlebot selon les instructions que vous avez ajoutées. Si des erreurs sont détectées, vous pouvez les corriger et retester.
Impacts négatifs de l’absence du robots.txt
En effet, robots.txt est essentiel pour les bots. Son absence peut envoyer un signal négatif à Google car les bots ne sauront pas déterminer quelles sont les pages à explorer et celles à ignorer.
Cela peut entrainer une surconsommation du budget de crawl (nombre de pages que Google explore sur votre site par jour) en utilisant des ressources sur des pages non pertinentes.
Comment le fichier robots.txt favorise votre SEO
Optimise le budget de crawl
Le fichier robots.txt est un véritable atout pour optimiser votre budget de crawl. En effet, certaines pages de votre site, comme la politique de confidentialité ou des pages privées, n’ont aucun impact sur votre SEO. En limitant l’accès des bots à ces pages, vous vous assurez que le budget de crawl est concentré uniquement sur les pages qui influencent votre positionnement dans les résultats de recherche.
Réduit le temps d’indexation
Le fichier sitemap.xml est un document qui liste toutes les URL’s stratégiques de votre site. En indiquant son emplacement dans le robots.txt, cela optimise le parcours des bots et réduit le temps nécessaire à l’indexation des pages dans la SERP.
Empêche l’indexation de contenus dupliqués
Le fichier robots.txt permet de bloquer l’indexation de certaines pages ou sections du site qui génèrent du contenu dupliqué. Les blogs ou sites de contenu peuvent avoir plusieurs pages qui listent le même contenu sous de catégories. En bloquant l’indexation de ces pages avec robots.txt, vous vous assurez que les bots explorent les pages uniques.
En résumé
Le fichier robots.txt est essentiel pour le SEO de votre site web. Il guide les robots d’indexation vers les pages stratégiques et bloque celles sans impact. De plus, il optimise l’utilisation du budget de crawl et réduit le temps d’indexation grâce à l’intégration du sitemap.