Analisi dei file di registro: 9 modi utilizzabili per la SEO
Pubblicato: 2021-07-19In questo articolo, tratteremo cosa sono i file di registro, perché sono significativi, cosa cercare e quali strumenti utilizzare. Infine, fornirò 9 modi utilizzabili per analizzarli per la SEO.
Che cos'è un file di registro del server?
Un registro del server è un file di registro (o più file) creato e gestito automaticamente da un server costituito da un elenco di attività eseguite.
Per scopi SEO, ci occupiamo di un registro del server Web che contiene una cronologia delle richieste di pagine per un sito Web, sia da umani che da robot. Questo è talvolta indicato anche come registro di accesso e i dati grezzi hanno un aspetto simile a questo:

Sì, i dati sembrano un po' travolgenti e confusi all'inizio, quindi analizziamoli e osserviamo più da vicino un "hit".
Un esempio di successo
Ogni server è intrinsecamente diverso nella registrazione degli hit, ma in genere fornisce informazioni simili organizzate in campi.
Di seguito è riportato un esempio di hit su un server Web Apache (questo è semplificato: alcuni campi sono stati eliminati):
50.56.92.47 – – [01/March/2018:12:21:17 +0100] “GET” – “/wp-content/themes/esp/help.php” – “404” “-” “Mozilla/5.0 ( compatibile; Googlebot/2.1; +http://www.google.com/bot.html)” – www.example.com –

Come puoi vedere, per ogni hit vengono fornite informazioni chiave come la data e l'ora, il codice di risposta dell'URI richiesto (in questo caso un 404) e lo user-agent da cui proviene la richiesta (in questo caso Googlebot ). Come puoi immaginare, i file di registro sono composti da migliaia di hit ogni giorno, poiché ogni volta che un utente o un bot arriva sul tuo sito, vengono registrati molti hit per ogni pagina richiesta, incluse immagini, CSS e qualsiasi altro file necessario per il rendering pagina.
Perché sono significativi?
Quindi sai cos'è un file di registro, ma perché vale la pena analizzarli?
Bene, il fatto è che esiste un solo vero record di come i motori di ricerca, come Googlebot, elaborano il tuo sito web. E questo è guardando i file di registro del tuo server per il tuo sito web.
Search Console, crawler di terze parti e operatori di ricerca non ci daranno il quadro completo su come Googlebot e altri motori di ricerca interagiscono con un sito web. SOLO i file di registro degli accessi possono fornirci queste informazioni.
Come possiamo utilizzare l'analisi dei file di registro per la SEO?
L'analisi dei file di registro ci offre un'enorme quantità di informazioni utili, inclusa la possibilità di:
- Convalida esattamente ciò che può o non può essere sottoposto a scansione.
- Visualizza le risposte incontrate dai motori di ricerca durante la loro scansione, ad esempio 302, 404, soft 404.
- Identificare le carenze della scansione, che potrebbero avere implicazioni più ampie basate sul sito (come la gerarchia o la struttura dei collegamenti interni).
- Scopri quali pagine danno priorità ai motori di ricerca e che potrebbero considerare le più importanti.
- Scopri le aree di spreco del budget di ricerca per indicizzazione.
Ti guiderò attraverso alcune delle attività che puoi svolgere durante l'analisi del file di registro e ti mostrerò come possono fornirti informazioni utili per il tuo sito web.
Come posso ottenere i file di registro?
Per questo tipo di analisi, sono necessari i log di accesso non elaborati da tutti i server Web per il tuo dominio, senza applicare filtri o modifiche. Idealmente, avrai bisogno di una grande quantità di dati per rendere l'analisi utile. Il numero di giorni/settimane che vale questo dipende dalle dimensioni e dall'autorità del tuo sito e dalla quantità di traffico che genera. Per alcuni siti potrebbe essere sufficiente una settimana, per alcuni siti potrebbe essere necessario un mese o più di dati.
Il tuo sviluppatore web dovrebbe essere in grado di inviarti questi file. Vale la pena chiedere loro prima di inviarti se i log contengono richieste da più di un singolo dominio e protocollo e se sono inclusi in questi log. Perché in caso contrario, ciò ti impedirà di identificare correttamente le richieste. Non sarai in grado di distinguere tra una richiesta per http://www.example.com/ e https://example.com/. In questi casi, dovresti chiedere al tuo sviluppatore di aggiornare la configurazione del registro per includere queste informazioni per il futuro.
Quali strumenti devo usare?
Se sei un mago di Excel, questa guida è davvero utile per aiutarti a formattare e analizzare i tuoi file di registro utilizzando Excel. Personalmente, uso l' analizzatore di file di registro Screaming Frog (costo $ 99 all'anno). La sua interfaccia intuitiva rende facile e veloce individuare eventuali problemi (anche se probabilmente non otterrai lo stesso livello di profondità o libertà che otterresti utilizzando Excel). Gli esempi che ti mostrerò sono tutti realizzati utilizzando l'analizzatore di file di registro di Screaming Frog.
Alcuni altri strumenti sono Splunk e GamutLogViewer.
9 modi per analizzare i file di registro per la SEO
1. Trova dove viene sprecato il budget di scansione
Innanzitutto, cos'è il budget di scansione? Google lo definisce come:
"Prendendo insieme la velocità di scansione e la domanda di scansione, definiamo il budget di scansione come il numero di URL che Googlebot può e vuole sottoporre a scansione".
In sostanza: è il numero di pagine che un motore di ricerca scansiona ogni volta che visita il tuo sito ed è collegato all'autorità di un dominio e proporzionale al flusso di link equity attraverso un sito web.
Fondamentale in relazione all'analisi dei file di registro, il budget di scansione a volte può essere sprecato su pagine irrilevanti. Se hai nuovi contenuti che desideri indicizzare ma non è rimasto alcun budget, Google non indicizzerà questi nuovi contenuti. Ecco perché vuoi monitorare dove spendi il tuo budget di scansione con l'analisi dei file di registro.
Fattori che influenzano il budget di scansione
Avere molti URL a basso valore aggiunto può influire negativamente sulla scansione e l'indicizzazione di un sito. Gli URL a basso valore aggiunto possono rientrare in queste categorie:
- Navigazione a faccette, generazione di URL dinamici e identificatori di sessione (comune per i siti di e-commerce)
- Contenuti duplicati in loco
- Pagine hackerate
- Pagine di errore morbide
- Contenuti di bassa qualità e spam
Sprecare risorse del server su pagine come queste eliminerà l'attività di scansione dalle pagine che hanno effettivamente valore, il che potrebbe causare un ritardo significativo nella scoperta di buoni contenuti su un sito.
Ad esempio, guardando questi file di registro, abbiamo scoperto che un tema WordPress errato veniva visitato molto frequentemente, questa è una soluzione ovvia!

Quando guardi il numero di eventi che ogni pagina sta ricevendo, chiediti se Google dovrebbe preoccuparsi di eseguire la scansione di questi URL : spesso troverai la risposta negativa. Pertanto, l'ottimizzazione del budget di scansione aiuterà i motori di ricerca a scansionare e indicizzare le pagine più importanti del tuo sito web. Puoi farlo in diversi modi, ad esempio escludendo gli URL dalla scansione bloccando gli URL contenenti determinati pattern con il file robots.txt . Dai un'occhiata al nostro utile post sull'argomento.
2. Le tue pagine importanti vengono scansionate?
Abbiamo spiegato perché è importante per Google non sprecare il budget per la scansione sulle tue pagine di scarso valore. L'altro lato della medaglia è verificare che le tue pagine di alto valore vengano visitate con l'importanza che attribuisci a loro. Se ordini i tuoi file di registro per Numero di eventi e filtri per HTML puoi vedere quali sono le tue pagine più visitate.

Sarebbe un po' troppo semplificato dire che i tuoi URL più importanti dovrebbero essere scansionati di più, tuttavia, se sei un sito di lead gen, vuoi che la tua home page, le pagine dei servizi chiave e i contenuti del blog appaiano lì.
Come sito di e-commerce, vorresti che la tua home page, le pagine delle categorie e le pagine dei prodotti chiave appaiano lì. Se vedi una vecchia pagina di prodotto che non vendi più e zero delle tue pagine di categoria più importanti in questi risultati, hai un problema.
3. Scopri se il tuo sito è passato all'indice Mobile-First di Google
Puoi accedere all'analisi dei file per sapere se il tuo sito web sta ricevendo l'aumento della scansione da parte di Googlebot Smartphone, indicando che è passato all'indice mobile-first . A partire dal 1° luglio 2019, l'indicizzazione mobile-first è abilitata per impostazione predefinita per tutti i nuovi siti web (nuovi sul Web o precedentemente sconosciuti a Ricerca Google). Google stesso ha dichiarato:
“Per i siti Web più vecchi o esistenti, continuiamo a monitorare e valutare le pagine in base alle migliori pratiche descritte in questa guida. Informiamo i proprietari dei siti in Search Console della data in cui il loro sito è passato all'indicizzazione mobile-first". Best practice per l'indicizzazione in primo piano su Google Mobile
In genere un sito ancora nell'indice normale avrà circa l'80% della scansione di Google eseguita dal crawler desktop e il 20% da quello mobile. È molto probabile che tu sia passato a mobile-first e, in tal caso, quei numeri 80/20 si invertiranno.
Puoi trovare queste informazioni guardando la scheda Agenti utente in Screaming Frog Log Analyzer: dovresti vedere la maggior parte degli eventi provenienti da Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, come Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatibile; Googlebot/2.1; +http://www.google.com/bot.html:

Se sei stato cambiato, dovresti anche aver ricevuto una notifica in Google Search Console che il tuo sito web ha abilitato l'indicizzazione mobile-first. In alternativa, puoi vederlo anche nel rapporto di copertura.

4. Tutti i robot dei motori di ricerca mirati accedono alle tue pagine?
Rimanendo con i bot, questo è un controllo facile da eseguire. Sappiamo che Google è il motore di ricerca dominante e quindi garantire che Googlebot Smartphone e Googlebot visitino regolarmente il tuo sito Web dovrebbe essere la tua priorità.
Possiamo filtrare i dati del file di registro in base al bot del motore di ricerca.

Una volta filtrato, puoi guardare per vedere il numero di eventi che ciascuno dei tuoi bot del motore di ricerca desiderati sta registrando. Si spera che vedrai lo smartphone Googlebot o Googlebot visitare maggiormente il tuo sito.
Consiglierei anche di controllare quanto ogni bot indesiderato sta visitando il tuo sito web. Ad esempio, se sei un'azienda britannica senza alcun desiderio di vendere beni o servizi in Russia o in Cina, puoi vedere quanto i bot Yandex e Baidu stanno visitando il tuo sito. Se stanno visitando una quantità insolita (ho visto in alcuni casi che visitano più di Googlebot Smartphone) puoi andare avanti e bloccare i crawler nel tuo robots.txt.
5. Individuazione di codici di stato errati
Sebbene otteniamo una tonnellata di dati nel rapporto sulla copertura della console di ricerca di Google su 404, 200 validi, i file di registro ci forniscono una panoramica effettiva dei codici di stato di ciascuna pagina. Solo i file di registro o l'invio manuale del recupero e del rendering di Google Search Console possono consentire di analizzare l'ultimo codice di risposta che il motore di ricerca avrà riscontrato.

Con il tuo analizzatore di file di registro Screaming Frog, puoi farlo rapidamente e, poiché sono ordinati per frequenza di scansione, puoi anche vedere quali sono potenzialmente gli URL più importanti da correggere.
Per vedere questi dati, puoi filtrare queste informazioni nella scheda Codici di risposta

Cerca pagine con stati HTTP 3xx, 4xx e 5xx
- Vengono visitati frequentemente?
- Le pagine con 3xx, 4xx e 5xx vengono visitate più delle tue pagine importanti?
- Ci sono modelli per i codici di risposta?
Con un progetto, nelle prime 15 pagine con il maggior numero di visite, c'erano reindirizzamenti , reindirizzamenti 302 (temporanei) errati, pagine senza contenuto e alcune che erano 404 e soft 404 .
Con l'analisi del file di registro, una volta identificato il problema, puoi iniziare a risolverlo aggiornando reindirizzamenti errati e soft 404.
6. Evidenzia codici di risposta incoerenti
Sebbene sia importante analizzare l'ultimo codice di risposta che il motore di ricerca avrà riscontrato, anche l'evidenziazione dei codici di risposta incoerenti può darti una visione approfondita.
Se hai guardato esclusivamente agli ultimi codici di risposta e non hai visto errori insoliti o picchi in 4xxs e 5xxs, potresti concludere i tuoi controlli tecnici lì. Tuttavia, puoi utilizzare un filtro nell'analizzatore di file di registro per visualizzare solo le risposte "incoerenti" in dettaglio.

Ci sono molte ragioni per cui i tuoi URL potrebbero presentare codici di risposta incoerenti. Per esempio:
- 5xx misto a 2xx: questo può indicare un problema del server quando sono sottoposti a un carico grave.
- 4xx mescolato con 2xx: questo può indicare collegamenti interrotti che sono apparsi o sono stati corretti
Una volta che hai a portata di mano queste informazioni dall'analisi del file di registro, puoi creare il tuo piano d'azione per correggere questi errori.
7. Controlla pagine grandi o lente
Sappiamo che il tempo per il primo byte (TTFB), il tempo per l'ultimo byte (TTLB) e il tempo per il caricamento dell'intera pagina influenzano il modo in cui il tuo sito viene scansionato. TTFB, in particolare, è la chiave per eseguire la scansione del tuo sito in modo rapido ed efficace. Poiché anche la velocità della pagina è un fattore di ranking, possiamo vedere quanto sia cruciale un sito Web veloce per le tue prestazioni.
Utilizzando i file di registro possiamo vedere rapidamente le pagine più grandi del tuo sito Web e quelle più lente.
Per visualizzare le pagine più grandi, ordina la colonna "Byte medi".

Qui possiamo vedere i PDF che costituiscono le pagine più grandi del sito web. Ottimizzarli e ridurne le dimensioni è un ottimo punto di partenza. Se stai vedendo pagine particolari apparire qui, potresti volerle guardare individualmente.
- Sono coperti con immagini ad alta risoluzione?
- Hanno i video che si riproducono automaticamente?
- Hanno caratteri personalizzati non necessari?
- La compressione del testo è stata abilitata?
Sebbene la dimensione della pagina sia un buon indicatore di una pagina lenta, non è tutto. Puoi avere una pagina grande ma può comunque caricarsi velocemente. Ordina la colonna "Tempo di risposta medio" e puoi vedere gli URL con il tempo di risposta più lento.
Come con tutti i dati che vedi qui, puoi filtrare per HTML, JavaScript, Immagine, CSS e altro, il che è davvero utile per il tuo controllo.
Forse il tuo obiettivo è ridurre la dipendenza del tuo sito web da JavaScript e voler individuare i maggiori colpevoli. Oppure sai che il CSS può essere semplificato e hai bisogno dei dati per eseguirne il backup. Il tuo sito potrebbe caricarsi a un ritmo di lumaca e il filtraggio per immagini ti dimostra che servire formati di nuova generazione dovrebbe essere una priorità.
8. Controllare i collegamenti interni e l'importanza della profondità di scansione
Un'altra grande caratteristica di questo analizzatore di file di registro è la possibilità di importare una scansione del sito web. È davvero facile da fare e ti dà molta più flessibilità in ciò che puoi analizzare dai tuoi file di registro. È sufficiente trascinare e rilasciare la scansione nei "Dati URL importati" visualizzati di seguito.

Una volta fatto ciò, puoi fare ulteriori analisi.

Assicurati di selezionare nel menu a discesa "Corrispondenza con dati URL" e trascina le colonne pertinenti nella visualizzazione. Qui possiamo eseguire analisi di massa sull'impatto che la profondità di scansione e gli inlink hanno sulla frequenza di scansione del tuo sito web.
Ad esempio, se hai pagine "importanti" che non vengono sottoposte a scansione frequentemente e noti che hanno pochissimi link interni e la profondità di scansione è superiore a 3, questo è molto probabilmente il motivo per cui la tua pagina non viene scansionata molto. Al contrario, se hai una pagina che viene sottoposta a scansione molto e non sei sicuro del perché, guarda dove si trova nel tuo sito. Dove è collegato? Quanto dista dalla radice? L'analisi di questo può indicarti cosa piace a Google della struttura del tuo sito. In definitiva, questa tecnica può aiutarti a identificare eventuali problemi con la gerarchia e la struttura del sito.
9. Scopri le pagine orfane
Infine, con i dati di scansione importati, individuare le pagine orfane è facile. Le pagine orfane possono essere definite come pagine conosciute dai motori di ricerca e che stanno eseguendo la scansione ma non sono collegate internamente al tuo sito web.

Selezionando il menu a discesa "Non nei dati URL" verranno visualizzati gli URL presenti nei log ma non nei dati di scansione . Pertanto, gli URL che appaiono qui saranno pagine che i bot dei motori di ricerca pensano ancora abbiano un valore, ma non appaiono più così sul sito web. Gli URL orfani possono apparire per molti motivi, tra cui:
- Modifiche alla struttura del sito
- Aggiornamenti dei contenuti
- Vecchi URL reindirizzati
- Collegamento interno errato
- Collegamento esterno errato
Alla fine, devi rivedere gli URL degli orfani che trovi e fare un giudizio su cosa fare con loro.
Pensieri finali
Quindi questa è la mia breve introduzione all'analisi dei file di registro e 9 attività eseguibili che puoi iniziare subito con l'analizzatore di file di registro di Screaming Frog. C'è molto di più che puoi fare, sia in Excel che con gli altri strumenti sopra menzionati (più altri). Più di quanto possa coprire qui! Di seguito sono riportate alcune risorse che ho trovato utili:
7 domande fondamentali sulla SEO tecnica a cui rispondere con un'analisi del file di registro
La guida definitiva all'analisi dei file di registro
Il valore dell'analisi dei file di registro
E ce ne sono molti altri là fuori da leggere che dovrebbero soddisfare i più curiosi degli appassionati di SEO tecnico!
Come si esegue l'analisi dei file di registro? Quali strumenti trovi che funzionino meglio? Il nostro team SEO vorrebbe saperlo. Commenta qui sotto.
Hai appena imparato qualcosa di nuovo?
Allora unisciti alle 80.000 persone che ogni mese leggono i nostri articoli di esperti.Se hai bisogno di aiuto con la tua SEO non esitare a contattarci.
