Comprensione del rapporto sulla copertura dell'indice

Pubblicato: 2018-12-20

Se hai visto un messaggio come questo nelle ultime due settimane, fai un respiro profondo e continua a leggere! In questo articolo analizzerò il motivo per cui stai riscontrando problemi di copertura da Google Search Console e come risolverli.

Che cos'è il rapporto sulla copertura dell'indice

Con la presentazione della rinnovata Google Search Console, ci sono una serie di funzionalità avanzate di cui essere a conoscenza. Una di queste funzionalità è il Rapporto sulla copertura dell'indice che delinea quanti URL del tuo sito sono stati catalogati (o indicizzati) da Google e verranno visualizzati nei risultati di ricerca di Google. Questo rapporto si trovava in precedenza in "Stato indice" nella vecchia interfaccia di Search Console:

VECCHIO VS NUOVO

Ora, il rapporto sulla copertura dell'indice si trova nel menu "Indice", quindi fai clic su "Copertura". Ti verrà mostrato quali URL hanno errori di indicizzazione, avvisi (o validi con avvisi), sono validi o esclusi dall'indice di Google. Per comprendere correttamente questo rapporto, esaminiamo il significato di ciascuno di questi gruppi.

Errore : queste sono pagine che al momento non vengono mostrate agli utenti che effettuano ricerche su Google, ma Google ritiene anche che questa non sia la tua intenzione.

Gli errori possono essere attivati ​​in molti modi diversi, incluso qualcosa di semplice come il tuo robots.txt che blocca i crawler da una pagina che hai inviato per l'indicizzazione a qualcosa di più complicato come un errore del server (errore di livello 500). Le buone notizie? La maggior parte di questi errori può essere risolta in modo relativamente semplice con l'aiuto del webmaster, dell'agenzia di marketing digitale o del team di sviluppo web.

Gli errori più comuni che abbiamo riscontrato all'ultimo piano sono "URL inviato bloccato da robots.txt" e "URL inviato contrassegnato con 'noindex'". Questi sono errori meno sinistri e si verificano inviando un URL per l'indicizzazione tramite Google Search Console mentre il file robots.txt non consente la scansione a questo URL o contiene un tag noindex. Questo è un segnale conflittuale perché il tuo sito sta dicendo ai motori di ricerca di non eseguire la scansione o indicizzare questa pagina, ma allo stesso tempo chiede che venga indicizzata. Google lo vedrà come non intenzionale e lo contrassegnerà sotto Errore anziché Escluso (o de-indicizzazione intenzionale).

Per altri modi per riscontrare un errore, vedere di seguito:

  • Errore del server (5xx) : il server non è riuscito a trovare l'URL quando richiesto e ha restituito un errore di livello 500.
    • Soluzione : parla con il tuo team di sviluppo per risolvere questo problema lato server. Non c'è molto altro che un'altra squadra possa fare qui senza la giusta esperienza.
  • Errore di reindirizzamento : si è verificato un problema nella catena di reindirizzamento associata a questo URL. È presente un ciclo di reindirizzamento o un URL nella catena ha un errore di livello 400 o 500.
    • Soluzione : scansiona l'URL, utilizzando Screaming Frog o un altro strumento, e identifica un errore di livello 400 o 500 in uno degli URL nella catena di reindirizzamento. Se non sei sicuro, parla con la tua agenzia di marketing digitale e verificheranno per te.
  • URL inviato bloccato da robots.txt : hai inviato questa pagina per l'indicizzazione in Google Search Console, ma la pagina è attualmente bloccata dal file robots.txt.
    • Soluzione : ricontrolla il file robots.txt su www.yoursite.com/robots.txt. Assicurati che una riga che inizia con "disallow" non faccia riferimento all'URL o alla sottocartella con l'URL in questione. La tua agenzia di marketing digitale può aiutarti a identificare eventuali problemi nel file robots.txt.
  • URL inviato contrassegnato come "noindex ": hai inviato questa pagina per l'indicizzazione, ma la pagina ha un meta tag "noindex" o un'intestazione HTTP.
    • Soluzione : valutare l'URL, si desidera che questa pagina venga trovata durante la ricerca su Google? Se lo fai, rimuovi semplicemente il meta tag o l'intestazione HTTP. Se non riesci a trovare il tag noindex guardando l'origine della pagina (Control + U), chiedi alla tua agenzia di marketing digitale o al team di sviluppo.
  • L'URL inviato sembra essere un soft 404 : hai inviato questa pagina per l'indicizzazione, ma Google ritiene che questa pagina sia un soft 404.
    • Soluzione: un errore Soft 404 si verifica quando viene visualizzata una pagina con contenuto di errore 404, ma il codice di stato non è 404, ma 200. Esaminare la pagina, dovrebbe essere veramente una pagina di errore e il codice di stato non è corretto? A volte Google interpreterà erroneamente una pagina con contenuto basso come un soft 404. In entrambi i casi, considera un reindirizzamento 301 per portare gli utenti a una pagina live pertinente.
  • URL inviato non trovato (404) : hai inviato un codice di errore 404 URL per l'indicizzazione tramite Google Search Console.
    • Soluzione : non vuoi pagine di errore nell'indice in quanto fornisce un'esperienza utente negativa. Se non si prevede che questa pagina torni in una pagina di stato attiva, 200 in futuro, 301 la reindirizza a contenuti pertinenti sul tuo sito.

Avviso : gli URL mostrati nella sezione Avvertenza o Valido con avvisi sono classificati da Google come "Pagine... potrebbero richiedere la tua attenzione e potrebbero o meno essere stati indicizzati, in base al risultato specifico"1

Che cosa significa questo? Per me, questo significa che Google non è sicuro di come gestire un URL, ma lo ha tenuto indicizzato con riluttanza. Indipendentemente dalla situazione di ciascun URL, rimuovere questa incertezza e approfondire il motivo per cui ogni URL viene contrassegnato. Da quello che ho visto finora, si tratta di qualcuno che usa il file robots.txt come strumento di deindicizzazione. Questo non è corretto per un paio di motivi.

Il file robots.txt viene utilizzato per impostare regole per impedire ai motori di ricerca di eseguire la scansione di determinate aree del tuo sito. Se un URL viene mostrato agli utenti che effettuano ricerche su Google e desideri che questo venga interrotto, non aggiungere una clausola di disattivazione al tuo file robots.txt poiché ciò suggerirà a Google di interrompere il controllo su questa pagina con i suoi crawler, spider o altro nome che vuoi dare loro. Per rimuovere veramente un URL da Google o da qualsiasi motore di ricerca, assegnagli un tag noindex nell'<head> dell'HTML o tramite un'intestazione HTTP.

Sebbene il focus di questo articolo sia su Errori e Avvisi, esaminiamo rapidamente le sezioni Valido ed Escluso.

Valido : molto semplicemente, questo è un elenco di URL che sono stati indicizzati con successo. L'unico QA da fare qui è per la tua sitemap XML e per assicurarti di non indicizzare qualcosa che non vuoi. Per fare ciò, è sufficiente fare clic sulla casella "Valido" (rimuovere la confusione avendo solo una casella evidenziata alla volta) e rivedere la sezione Dettagli.

Incontrerai due principali tipi di dettagli, "Inviato e indicizzato" e "Indicizzato, non inviato nella mappa del sito:"

  • Inviato e indicizzato: questo è un elenco di URL del tuo sito che Google conferma che sono stati indicizzati correttamente.
  • Indicizzati, non inviati nella mappa del sito: si tratta di URL indicizzati che non vengono visualizzati nella mappa del sito XML. A seconda del tuo sito, in genere non dovrebbe essercene un gran numero. Se desideri che un URL venga indicizzato, dovresti aiutare i motori di ricerca e te stesso e aggiungerli alla tua mappa del sito XML. Se non sei sicuro di come eseguire questa operazione, contatta la tua agenzia di marketing digitale e potranno eseguire il QA della tua sitemap in modo appropriato.

Esclusi : si tratta di URL intenzionalmente esclusi dall'indice di Google. Questo può accadere attraverso molte strade diverse, ma Google ritiene che il tuo sito abbia adottato misure per impedire che questi URL vengano cercati. Questo non è affatto un problema e fa parte di un sito sano. Le risorse interne, come le pagine protette da password o gli URL delle immagini generati da un sito WordPress, dovrebbero essere escluse dall'indice in quanto rappresentano un'esperienza di pagina di destinazione scadente per gli utenti che effettuano ricerche online.

Hai domande?

Se hai letto questo articolo e non sei ancora sicuro di come gestire i tuoi problemi di copertura, chiamaci e il nostro team di marketing di ricerca sarà lieto di aiutarti a risolverlo.