Que sont les erreurs 404 « soft » et affecteront-elles mon classement ?

Publié: 2021-07-19

Les erreurs soft 404 sont différentes des erreurs 404 habituelles et peuvent nuire à votre site. Il est important de les corriger afin que votre site Web puisse fonctionner correctement du point de vue du référencement.

Page d'erreur Hallam 404

Vous connaissez probablement le code d'erreur 404 qui vous indique que la page Web que vous recherchez n'a pas été trouvée. Mais saviez-vous que l'utilisation de ce message d'erreur dans le mauvais contexte peut générer ce qu'on appelle un soft 404, ce qui peut avoir un impact sur vos performances de référencement ?

Les spécialistes du marketing négligent parfois ces aspects techniques des sites Web et s'attendent à ce que les développeurs Web les traitent à la place. Cela peut nuire aux performances d'un site Web dans les résultats de recherche, c'est pourquoi les spécialistes du référencement doivent travailler en étroite collaboration avec les développeurs Web.

Cet article se concentrera sur une catégorie particulière d'erreurs d'exploration, une catégorie qui, si elle n'est pas résolue, peut réduire considérablement le nombre de pages des moteurs de recherche tels que l'exploration et l'indexation de Google dans leurs résultats de recherche. Dans cet article, nous aborderons :

  • Qu'est-ce qu'une erreur logicielle 404
  • Les problèmes avec les erreurs soft 404
  • Comment corriger les erreurs logicielles 404
  • Pourquoi la correction des erreurs logicielles 404 améliorera les performances de votre site Web

Qu'est-ce qu'une erreur logicielle 404 ?

Un véritable message d'erreur 404 se produit lorsque le serveur d'un site Web renvoie un code de réponse standard HTTP 404 pour indiquer qu'il n'a pas pu trouver la page Web ( URL ) demandée par l'utilisateur. Cela informe à la fois les navigateurs et les moteurs de recherche que la page n'existe pas.

Ce que la plupart des gens ne comprennent pas, c'est que le contenu de la page – le message « page non trouvée » – n'a aucun rapport avec la réponse HTTP renvoyée par le serveur. Ce n'est pas parce qu'une page affiche un message 404 File Not Found que cette page est automatiquement définie comme une page 404.

Selon les propres mots de Google : « C'est comme une girafe portant une étiquette de nom qui dit « chien ». Ce n'est pas parce que le badge dit que c'est un chien que c'est en fait un chien. De même, ce n'est pas parce qu'une page indique 404 qu'elle renvoie un code d'état 404. "

Une erreur logicielle 404 se produit lorsqu'une page inexistante (une page qui a été supprimée/supprimée) affiche un message "page introuvable" à toute personne essayant d'y accéder mais ne parvient pas à renvoyer un code d'état HTTP 404. Ils peuvent également se produire lorsque la page inexistante redirige les utilisateurs vers une page non pertinente, telle que la page d'accueil, au lieu de renvoyer un code d'état HTTP 404.

La chose importante à retenir ici est que le contenu d'une page Web n'a aucun rapport avec la réponse HTTP renvoyée par le serveur.

Cette distinction est importante pour le référencement car elle détermine comment Google traite la page. L'exploration et l'indexation sont un processus par lequel les robots de Google passent avant de répertorier les pages de votre site Web dans les pages de résultats des moteurs de recherche. Lorsqu'un véritable message d'erreur 404 est renvoyé, les robots de Google ne passent pas de temps à explorer ou à indexer la page. Lorsqu'une erreur logicielle 404 est renvoyée, la page est toujours explorée et indexée.

Le problème avec les erreurs Soft 404

Si votre site Web renvoie un code d'état HTTP autre que 404 (ou 410) pour une page inexistante, cela peut avoir un impact négatif sur les performances du site Web en recherche organique. Cela signifie que si votre site Web contient une proportion élevée d'erreurs logicielles 404, cela peut être dangereux. En omettant de fournir un code d'état 404, votre site Web indique aux moteurs de recherche qu'il existe une page réelle à l'URL auquel ils tentent d'accéder. En conséquence, l'URL que vous avez supprimée (sans contenu) sera explorée et indexée, gaspillant ainsi un précieux budget d'exploration sur des pages redondantes.

Google définit Crawl Budget comme "le nombre d'URL que Googlebot peut et veut explorer". Crawl Budget est divisé en Crawl Rate et Crawl Demand :

  • Taux d' exploration - Conçu pour aider Google à ne pas explorer vos pages trop fréquemment ou trop rapidement et à endommager votre serveur
  • Crawl Demand – À quel point Google souhaite-t-il explorer vos pages. Ceci est basé sur la popularité de vos pages et l'obsolescence du contenu de l'index de Google.

Google ne veut pas perdre un temps sans fin à explorer du contenu sur le même site Web, il est donc logique pour eux d'attribuer un « budget » à leurs explorations Web avant de passer à un autre site Web.

S'en tenant à l'idée des budgets d'exploration, si un site Web présente une proportion élevée d'erreurs logicielles 404, ces pages seront explorées. Le processus d'exploration de ces pages inexistantes prendra invariablement des montants inutiles du budget d'exploration attribué au site. En raison du temps que Googlebot passe à explorer les soft 404, vos URL uniques peuvent donc ne pas être découvertes aussi rapidement ou explorées aussi fréquemment, ce qui réduit la visibilité du contenu important de votre site.

En fin de compte, si vous avez un pourcentage élevé de soft 404, vous gaspillez non seulement votre budget de crawl sur des pages sans signification, mais vous réduisez également la visibilité de vos pages importantes. Il n'est donc pas surprenant que lorsque les erreurs logicielles 404 sont résolues, les performances d'un site Web dans les résultats de recherche organiques ont tendance à s'améliorer.

Pour expliquer comment vous évalueriez l'étendue d'un problème soft 404, examinons un exemple de site Web qui affiche un certain nombre d'erreurs soft 404 dans Google Search Console. Dans l'exemple ci-dessous, nous voyons 147 erreurs logicielles 404 signalées pour le site Web en question. Cela peut bien déclencher une sonnette d'alarme, mais nous devons d'abord considérer le chiffre dans son contexte.

Erreurs logicielles 404

Pour ce faire, nous devons vérifier combien de pages Web du site Web ont été soumises à Google pour être explorées et indexées. Pour cette tâche, nous examinons le plan du site XML du site Web en question, qui est un indicateur clé du nombre de pages d'un site Web. Vous pouvez voir quels plans de site XML ont été soumis sous Search Console > Plans de site

plan du site

Et la couverture, qui montre combien de pages Web sont indexées ou ont des problèmes, peut être trouvée sous Search Console > Couverture > Rechercher un plan de site XML dans la liste déroulante.

Couverture - nombre de pages Web desservies

L'exemple ci-dessus montre que Google indexe 3,31K pages de contenu du site Web en question.

En regardant les données ci-dessus, nous pouvons voir que ce site Web compte environ 3 409 pages, de sorte que les 107 erreurs logicielles 404 commencent maintenant à sembler un peu moins inquiétantes. Pourtant, à plus de 3% du nombre total de pages du site, les 107 erreurs logicielles 404 gaspillent encore une partie du budget d'exploration attribué à ce site Web. Dans ce cas, Google passe trop de temps à explorer des URL qui n'existent tout simplement pas.

Comment puis-je résoudre ces problèmes ?

Google ne vous permet d'exporter qu'un maximum de 1000 URL dans Google Search Console. Dans l'exemple ci-dessus, moins de 1 000 erreurs sont signalées, elles peuvent donc être téléchargées directement via la Search Console. Une fois que vous avez exporté la liste des URL, vous devrez évaluer pourquoi les pages sont signalées comme des 404 logicielles. Google fournit des informations sur les URL qu'ils mettent en évidence en tant que soft 404, comme vous pouvez le voir dans l'exemple ci-dessous :

Informations de Google sur les erreurs soft 404

Dans la plupart des cas, vous constaterez qu'un site Web affichera un code d'état 200 (OK) sur les pages qui renvoient un message « page non trouvée ». Par conséquent, la première chose que vous devez faire est d'exécuter une sélection des pages d'erreur logicielles 404 via un vérificateur de code d'état HTTP tel que httpstatus.io , pour évaluer les codes d'état que ces pages renvoient .

Disons que l'exemple de domaine ci-dessous affichait une page 404 à l'utilisateur essayant d'y accéder, mais lorsque nous avons vérifié le code de réponse à l'aide d'un vérificateur de code d'état HTTP, il a renvoyé une réponse HTTP 200. Il s'agit d'un excellent exemple d'erreur logicielle 404, car le code de réponse HTTP indique aux robots des moteurs de recherche que la page existe et doit être explorée. Cependant, il n'y a aucun contenu sur la page qui est renvoyé par le serveur.

Vérifier les codes de réponse du serveur

Page renvoyant un code de réponse du serveur HTTP 200. Vérifié à l'aide de : https://https://httpstatus.io/

L'autre problème que vous pourriez rencontrer lors du diagnostic de la cause première des erreurs logicielles 404 est celui des redirections 301/302 inappropriées.

Les redirections 301 doivent être utilisées lorsqu'une page est supprimée définitivement et que vous souhaitez envoyer des personnes vers une nouvelle page plus appropriée. Les redirections 302 sont similaires aux 301 mais sont utilisées lorsque la page est temporairement supprimée.

Certains webmasters choisissent de rediriger toutes les pages supprimées vers la page d'accueil du site Web au lieu de servir une erreur 404, ce qui n'est pas du tout approprié et confond les robots des moteurs de recherche . Il est important de souligner qu'avoir des 404 sur votre site Web n'est pas une mauvaise chose. Les pages supprimées ou les produits en rupture de stock ne doivent être redirigés que vers un remplacement direct. Si un remplacement direct n'existe pas, vous devez afficher une page d'erreur 404 personnalisée pour afficher des options ou des produits alternatifs à l'utilisateur.

J'ai mis en évidence un exemple de redirections inappropriées déclenchant des erreurs logicielles 404 ci-dessous. Dans ce cas, le webmaster utilise des redirections 302 pour rediriger toute personne essayant d'accéder à une page qui a été supprimée, et redirige ces utilisateurs vers une page 404 personnalisée – une page qui ne sert pas réellement de code d'état HTTP 404. Cela aura un impact considérable sur la façon dont les moteurs de recherche explorent le site Web en question, car les moteurs de recherche sont invités à rechercher ailleurs les pages qui ont effectivement été supprimées. Si un robot de moteur de recherche suit ces instructions, il finira par recevoir un code d'état HTTP 200 (OK) pour une page qui affiche un message d'erreur 404, ce qui est un tout autre niveau de mauvaise pratique.

Exemple d'une redirection 302 utilisée pour envoyer les utilisateurs vers une page d'erreur 404 personnalisée

Exemple d'une redirection 302 utilisée pour envoyer les utilisateurs vers une page d'erreur 404 personnalisée

Vous ne devez jamais utiliser de redirections pour diffuser une page d'erreur 404. Au lieu de cela, fournissez un code de réponse HTTP 404 lorsque des pages que vous supprimez ou supprimez de votre site Web sont demandées et qu'il n'y a pas de remplacement direct. Cela empêchera votre site Web de déclencher un grand nombre d'erreurs 404 logicielles et garantira que les moteurs de recherche n'explorent et n'indexent que les pages que vous souhaitez classer.

Exemple de code d'état pour une URL

Page renvoyant un code de réponse du serveur HTTP 404. Vérifié à l'aide de : http://httpsstatus.io/

La résolution des erreurs Soft 404 augmentera-t-elle le trafic vers mon site Web ?

Les résultats d'un projet de référencement technique sur lequel nous avons déjà travaillé pour un client de commerce électronique ont clairement indiqué pourquoi vous devriez toujours prendre note des erreurs 404 logicielles. Nous avons remarqué que le client en question avait une proportion extrêmement élevée d'erreurs logicielles 404 par rapport au nombre total de pages de son site. Nous avons découvert que cela était dû au fait que leur site Web servait des messages 404 sans renvoyer les codes d'état HTTP 404 pour bon nombre de leurs produits supprimés, dont des milliers.

Une fois le problème diagnostiqué, nous avons contacté le développeur Web du client pour nous assurer que son serveur renvoie les codes d'état HTTP 404 à côté des messages « page introuvable » pour tous les produits qu'il a supprimés de son site Web. Le développeur a mis en œuvre le correctif comme nous l'avions suggéré, et deux jours plus tard, nous avons remarqué que le trafic organique avait considérablement augmenté. Il est passé d'une moyenne de 1 400 séances par jour à une moyenne de 2 600 par jour.

Analyse des codes d'état 404

L'histoire ne s'arrête pas là les gars. Il s'avère que ce client utilisait une plate-forme de site Web personnalisée utilisée par de nombreux autres détaillants en ligne, ce qui signifie que d'autres sites Web créés par le développeur fonctionnaient sur la même plate-forme. Ainsi, lorsque le développeur a commencé à fournir des codes d'état HTTP 404 pour toutes les pages supprimées sur sa plate-forme, d'autres entreprises utilisant cette plate-forme ont commencé à signaler une forte augmentation de leur trafic organique. Je ne peux que supposer que les développeurs Web en ont pris tout le mérite, malgré la bataille d'un mois que nous avons eue pour les convaincre que les 404 logiciels valaient la peine d'être résolus en premier lieu !

Soft 404 : l'importance du référencement technique

Le référencement technique est quelque chose que de nombreux spécialistes du marketing ne connaissent que vaguement. En effet, même pour les praticiens du référencement, c'est souvent un domaine qui a tendance à tomber entre les mains des développeurs web. Cela peut conduire à d'énormes opportunités manquées en termes d'amélioration de la visibilité de la recherche organique. Les fonctions techniques d'un site Web sont ce que je considère comme les éléments constitutifs du référencement et, comme nous l'avons vu dans l'exemple ci-dessus, elles sont particulièrement importantes pour les sites Web de commerce électronique au niveau de l'entreprise.

TL ; DR – Trop long ; N'a pas lu

  • Chaque fois que le message d'erreur 404 (introuvable) s'affiche sur une page, le serveur doit renvoyer un code de réponse standard HTTP 404.
  • Le contenu de la page (le message 'page not found') n'a aucun rapport avec la réponse HTTP renvoyée par le serveur.
  • Une erreur logicielle 404 se produit lorsqu'une page inexistante (une page qui a été supprimée/supprimée) affiche un message "page introuvable" à toute personne essayant d'y accéder mais ne renvoie pas de code d'état HTTP 404. Cela peut se produire lorsque la page supprimée redirige les utilisateurs vers une page non pertinente telle que la page d'accueil du site Web.
  • Le nombre de soft 404 signalé doit être comparé au nombre total de pages indexables sur un site - si ce ratio soft 404/pages indexables est élevé, il peut avoir un impact négatif sur les performances d'un site Web dans la recherche organique en gaspillant un précieux budget de crawl.
  • La résolution des problèmes soft 404 peut considérablement améliorer l'efficacité de l'exploration et garantir que les moteurs de recherche ne passent que du temps à explorer les pages que vous souhaitez.
  • La correction de vos erreurs logicielles 404 peut améliorer la visibilité d'un site Web dans la recherche organique.

Vous venez d'apprendre quelque chose de nouveau ?

Alors rejoignez les 80 000 personnes qui lisent nos articles d'experts chaque mois.
  • Ce champ est à des fins de validation et doit rester inchangé.

Si vous avez besoin d'aide pour votre référencement, n'hésitez pas à nous contacter.