Análise do arquivo de registro: 9 maneiras viáveis ​​de ser usado para SEO

Publicados: 2021-07-19

Neste artigo, abordaremos o que são arquivos de log, por que são importantes, o que procurar e quais ferramentas usar. Por fim, apresentarei 9 maneiras viáveis ​​de analisá-los para SEO.

O que é um arquivo de log do servidor?

Um log de servidor é um arquivo de log (ou vários arquivos) criado e mantido automaticamente por um servidor que consiste em uma lista de atividades que ele executou.

Para fins de SEO, estamos preocupados com um log do servidor web que contém um histórico de solicitações de páginas para um site, tanto de humanos quanto de robôs. Isso às vezes também é chamado de registro de acesso, e os dados brutos têm a seguinte aparência:

análise de arquivo de log para seo

Sim, os dados parecem um pouco opressivos e confusos no início, então vamos analisá-los e analisar um “acerto” mais de perto.

Um exemplo de sucesso

Cada servidor é inerentemente diferente no registro de ocorrências, mas eles geralmente fornecem informações semelhantes organizadas em campos.

Abaixo está um exemplo de acesso a um servidor da web Apache (isso é simplificado - alguns dos campos foram retirados):

50.56.92.47 - - [01 / março / 2018: 12: 21: 17 +0100] “GET” - “/wp-content/themes/esp/help.php” - “404” “-” “Mozilla / 5.0 ( compatível; Googlebot / 2.1; + http: //www.google.com/bot.html) ”- www.example.com -

análise de arquivo de log para seo

Como você pode ver, para cada hit, recebemos informações importantes, como data e hora, o código de resposta do URI solicitado (neste caso, um 404) e o user-agent de onde veio a solicitação (neste caso, o Googlebot ) Como você pode imaginar, os arquivos de log são compostos por milhares de acessos a cada dia, pois cada vez que um usuário ou bot chega ao seu site, muitos acessos são registrados para cada página solicitada - incluindo imagens, CSS e quaisquer outros arquivos necessários para processar o página.

Por que eles são significativos?

Então, você sabe o que é um arquivo de log, mas por que vale a pena analisá-los?

Bem, o fato é que há apenas um registro verdadeiro de como os mecanismos de pesquisa, como o Googlebot, processam seu site. E isso é olhando para os arquivos de log do servidor para o seu site.

O Search Console, os rastreadores de terceiros e os operadores de pesquisa não fornecem uma visão geral de como o Googlebot e outros mecanismos de pesquisa interagem com um site. SOMENTE os arquivos de log de acesso podem nos fornecer essas informações.

Como podemos usar a análise de arquivo de log para SEO?

A análise do arquivo de registro nos dá uma grande quantidade de informações úteis, incluindo nos permitindo:

  • Valide exatamente o que pode ou não ser rastreado.
  • Visualize as respostas encontradas pelos mecanismos de pesquisa durante o rastreamento, por exemplo, 302s, 404s, soft 404s.
  • Identifique deficiências de rastreamento, que podem ter implicações mais amplas com base no site (como hierarquia ou estrutura de link interno).
  • Veja quais páginas os mecanismos de pesquisa priorizam e podem considerar as mais importantes.
  • Descubra áreas de desperdício de orçamento de rastreamento.

Apresentarei algumas das tarefas que você pode realizar durante a análise do arquivo de log e mostrarei como elas podem fornecer informações acionáveis ​​para o seu site.

Como posso obter arquivos de log?

Para este tipo de análise, você precisa dos logs de acesso brutos de todos os servidores web de seu domínio, sem filtragem ou modificações aplicadas. Idealmente, você precisará de uma grande quantidade de dados para fazer a análise valer a pena. Quantos dias / semanas valem isso, depende do tamanho e autoridade do seu site e da quantidade de tráfego que ele gera. Para alguns sites, uma semana pode ser suficiente; para alguns sites, você pode precisar de um mês ou mais de dados.

Seu desenvolvedor da web deve ser capaz de enviar esses arquivos para você. Antes de enviarem para você, vale a pena perguntar a eles se os logs contêm solicitações de mais de um único domínio e protocolo e se estão incluídos nesses logs. Porque do contrário, isso impedirá que você identifique corretamente as solicitações. Você não saberá a diferença entre uma solicitação para http://www.example.com/ e https://example.com/. Nesses casos, você deve pedir ao seu desenvolvedor para atualizar a configuração do log para incluir essas informações no futuro.

Quais ferramentas eu preciso usar?

Se você é um gênio do Excel, este guia é realmente útil para ajudá-lo a formatar e analisar seus arquivos de log usando o Excel. Pessoalmente, eu uso o Screaming Frog Log File Analyzer (custa US $ 99 por ano). Sua interface amigável torna rápido e fácil localizar quaisquer problemas (embora, sem dúvida, você não obtenha o mesmo nível de profundidade ou liberdade que obteria usando o Excel). Os exemplos que irei mostrar a você são todos feitos usando o Screaming Frog Log File Analyzer.

Algumas outras ferramentas são Splunk e GamutLogViewer.

9 maneiras de analisar arquivos de log para SEO

1. Descubra onde o orçamento de rastreamento está sendo desperdiçado

Em primeiro lugar, o que é orçamento de rastreamento? O Google o define como:

“Considerando a taxa de rastreamento e a demanda de rastreamento juntos, definimos o orçamento de rastreamento como o número de URLs que o Googlebot pode e deseja rastrear.”

Essencialmente - é o número de páginas que um mecanismo de pesquisa rastreia cada vez que visita seu site e está vinculado à autoridade de um domínio e proporcional ao fluxo de link equity através de um site.

Crucialmente em relação à análise do arquivo de log, o orçamento de rastreamento às vezes pode ser desperdiçado em páginas irrelevantes. Se você tem conteúdo novo que deseja indexar, mas não tem orçamento sobrando, o Google não indexará esse novo conteúdo. É por isso que você deseja monitorar onde gasta seu orçamento de rastreamento com a análise do arquivo de log.

Fatores que afetam o orçamento de rastreamento

Ter muitos URLs de baixo valor agregado pode afetar negativamente o rastreamento e a indexação de um site. URLs de baixo valor agregado podem se enquadrar nestas categorias:

  • Navegação facetada, geração dinâmica de URL e identificadores de sessão (comum para sites de comércio eletrônico)
  • Conteúdo duplicado no local
  • Páginas hackeadas
  • Páginas de erro de software
  • Conteúdo de baixa qualidade e spam

Desperdiçar recursos do servidor em páginas como essas drenará a atividade de rastreamento de páginas que realmente têm valor, o que pode causar um atraso significativo na descoberta de bom conteúdo em um site.

Por exemplo, olhando para esses arquivos de log, descobrimos que um tema incorreto do WordPress estava sendo visitado com muita frequência, esse é um conserto óbvio!

rastreamento de arquivo de log desperdício de orçamento

Ao observar o número de eventos que cada página está obtendo, pergunte-se se o Google deveria se preocupar em rastrear esses URLs - você frequentemente descobrirá que a resposta é não. Portanto, otimizar seu orçamento de rastreamento ajudará os mecanismos de pesquisa a rastrear e indexar as páginas mais importantes do seu site. Você pode fazer isso de várias maneiras, como impedir que URLs sejam rastreados, bloqueando URLs que contêm certos padrões com o arquivo robots.txt . Confira nossa útil postagem sobre o assunto.

2. Suas páginas importantes estão sendo rastreadas?

Abordamos por que é importante para o Google não desperdiçar orçamento de rastreamento em suas páginas de baixo valor. O outro lado da moeda é verificar se suas páginas de alto valor estão sendo visitadas com a importância que você atribui a elas. Se você ordenar seus arquivos de registro por Número de eventos e filtrar por HTML, poderá ver quais são as suas páginas mais visitadas.

páginas importantes de análise de arquivo de log

Seria um tanto simplificado dizer que seus URLs mais importantes devem ser rastreados mais - entretanto, se você é um site de geração de leads, deseja que sua página inicial, as principais páginas de serviço e o conteúdo do blog apareçam neles.

Como um site de comércio eletrônico, você gostaria que sua página inicial, páginas de categoria e páginas de produtos importantes aparecessem lá. Se você estiver vendo uma página de produto antiga que não vende mais e nenhuma de suas páginas de categoria mais importantes nesses resultados, você tem um problema.

3. Descubra se o seu site mudou para o índice mobile-first do Google

Você pode registrar a análise do arquivo para saber se o seu site está recebendo o rastreamento cada vez maior do Googlebot Smartphone, indicando que foi alterado para o índice mobile-first . A partir de 1º de julho de 2019, a indexação primeiro para dispositivos móveis está ativada por padrão para todos os novos sites (novos na web ou anteriormente desconhecidos para a Pesquisa Google). O próprio Google declarou:

“Para sites mais antigos ou existentes, continuamos a monitorar e avaliar as páginas com base nas melhores práticas detalhadas neste guia. Informamos os proprietários de sites no Search Console da data em que seus sites mudaram para a indexação que prioriza os dispositivos móveis ”. Prática recomendada de indexação do Google Mobile

Normalmente, um site que ainda está no índice regular terá cerca de 80% do rastreamento do Google feito pelo rastreador de desktop e 20% pelo móvel. É mais provável que você tenha mudado para o primeiro celular e, se mudou, esses números 80/20 serão revertidos.

Você pode encontrar essas informações observando a guia User Agents no Screaming Frog Log Analyzer - você deve ver a maioria dos eventos provenientes do Mozilla / 5.0 (Linux; Android 6.0.1; Nexus 5X Build / MMB29P) AppleWebKit / 537.36 (KHTML, como Gecko) Chrome / 41.0.2272.96 Mobile Safari / 537.36 (compatível; Googlebot / 2.1; + http: //www.google.com/bot.html:

análise de arquivo de log para seo

Se você mudou, também deve ter recebido uma notificação no Google Search Console de que seu site teve a indexação primeiro para dispositivos móveis ativada. Alternativamente, você também pode ver isso no relatório de cobertura.

relatório de cobertura do console de pesquisa do google

4. Todos os seus robôs de mecanismo de pesquisa direcionados estão acessando suas páginas?

Ficando com bots, esta é uma verificação fácil de realizar. Sabemos que o Google é o mecanismo de pesquisa dominante e, portanto, garantir que o Googlebot Smartphone e o Googlebot visitem regularmente o seu site deve ser sua prioridade.

Podemos filtrar os dados do arquivo de log pelo bot do mecanismo de pesquisa.

bot de mecanismo de pesquisa de análise de arquivo de log

Depois de filtrado, você pode ver o número de eventos que cada um dos seus robôs de mecanismo de pesquisa desejados está registrando. Com sorte, você verá o Googlebot Smartphone ou o Googlebot visitando o seu site com mais frequência.

Também recomendo verificar o quanto cada bot indesejado está visitando seu site. Por exemplo, se você for uma empresa britânica que não deseja vender produtos ou serviços para a Rússia ou China, poderá ver o quanto os bots Yandex e Baidu estão visitando seu site. Se eles estiverem visitando uma quantidade incomum (eu vi em alguns casos que eles visitam mais do que o Googlebot Smartphone), você pode prosseguir e bloquear os rastreadores em seu robots.txt.

5. Identificando códigos de status incorretos

Embora recebamos uma tonelada de dados no relatório de cobertura do console da Pesquisa Google sobre 404s, 200s válidos, os arquivos de registro nos fornecem uma visão geral real dos códigos de status de cada página. Apenas os arquivos de registro ou o envio manual de busca e renderização do Google Search Console podem permitir que você analise o último código de resposta que o mecanismo de pesquisa apresentou.

Com o Screaming Frog Log File Analyzer, você pode fazer isso rapidamente e, como eles são ordenados por frequência de rastreamento, você também pode ver quais são os URLs potencialmente mais importantes a serem corrigidos.

Para ver esses dados, você pode filtrar essas informações na guia de códigos de resposta

códigos de status incorretos

Procure páginas com status HTTP 3xx, 4xx e 5xx

  • Eles estão sendo visitados com frequência?
  • As páginas com 3xx, 4xx e 5xx estão sendo visitadas mais do que as páginas importantes?
  • Existem padrões para os códigos de resposta?

Com um projeto, nas 15 páginas principais com mais acessos, havia redirecionamentos , redirecionamento 302 incorreto (temporário), páginas sem conteúdo e algumas que eram 404s e soft 404s .

Com a análise do arquivo de log, depois de identificar o problema, você pode começar a corrigi-lo atualizando redirecionamentos incorretos e soft 404s.

6. Destaque os códigos de resposta inconsistentes

Embora seja importante analisar o último código de resposta que o mecanismo de pesquisa experimentou, destacar códigos de resposta inconsistentes também pode fornecer uma ótima visão.

Se você olhou apenas para os últimos códigos de resposta e não viu erros incomuns ou quaisquer picos em 4xxs e 5xxs, você pode concluir suas verificações técnicas lá. No entanto, você pode usar um filtro no analisador de arquivo de log para visualizar apenas as respostas 'inconsistentes' em detalhes.

códigos de resposta inconsistentes

Existem muitos motivos pelos quais seus URLs podem apresentar códigos de resposta inconsistentes. Por exemplo:

  • 5xx misturado com 2xx - isso pode apontar para um problema de servidor quando eles estão sob uma carga severa.
  • 4xx misturado com 2xx - isso pode apontar para links quebrados que apareceram ou foram corrigidos

Depois de ter em mãos essas informações da análise do arquivo de log, você pode criar seu plano de ação para corrigir esses erros.

7. Auditar páginas grandes ou lentas

Sabemos que o tempo até o primeiro byte (TTFB), o tempo até o último byte (TTLB) e o tempo até o carregamento da página inteira influenciam como seu site é rastreado. O TTFB, em particular, é a chave para que seu site seja rastreado com rapidez e eficácia. Com a velocidade da página também sendo um fator de classificação, podemos ver o quão crucial é um site rápido para o seu desempenho.

Usando arquivos de log, podemos ver rapidamente as maiores páginas do seu site e as mais lentas.

Para visualizar suas páginas maiores, classifique a coluna 'Média de bytes'.

páginas lentas do arquivo de log

Aqui podemos ver os PDFs que constituem as maiores páginas do site. Otimizá-los e reduzir seu tamanho é um ótimo lugar para começar. Se você estiver vendo páginas específicas aparecerem aqui, convém examiná-las individualmente.

  • Eles estão cobertos com imagens de alta resolução?
  • Eles têm vídeos com reprodução automática?
  • Eles têm fontes personalizadas desnecessárias?
  • A compactação de texto foi habilitada?

Embora o tamanho da página seja um bom indicador de uma página lenta, não é tudo. Você pode ter uma página grande, mas ela ainda pode carregar rapidamente. Classifique a coluna 'Tempo médio de resposta' e você poderá ver os URLs com o tempo de resposta mais lento.

Como acontece com todos os dados que você vê aqui, você pode filtrar por HTML, JavaScript, Imagem, CSS e muito mais, o que é muito útil para sua auditoria.

Talvez o seu objetivo seja reduzir a dependência do seu site em JavaScript e deseja localizar os maiores culpados. Ou você sabe que o CSS pode ser simplificado e precisa dos dados para fazer o backup. Seu site pode carregar em um ritmo de lesma e a filtragem por imagens demonstra a você que servir formatos de próxima geração deve ser uma prioridade.

8. Verifique os links internos e a importância da profundidade do rastreamento

Outro grande recurso desse analisador de arquivo de log é a capacidade de importar um rastreamento do site. É realmente fácil de fazer e oferece muito mais flexibilidade no que você pode analisar de seus arquivos de log. Simplesmente arraste e solte o rastreamento em 'Dados de URL importados' visto abaixo.

importar rastreamento para analisador de arquivo de log

Depois de fazer isso, você pode fazer análises adicionais.

análise de link interno

Certifique-se de selecionar no menu suspenso 'Corresponde aos dados do URL' e arraste as colunas relevantes para a visualização. Aqui, podemos fazer uma análise em massa sobre o impacto que a profundidade do rastreamento e os inlinks têm na frequência de rastreamento do seu site.

Por exemplo, se você tiver páginas "importantes" que não são rastreadas com frequência e perceber que elas têm poucos links de acesso e a profundidade do rastreamento está acima de 3, provavelmente é por isso que sua página não está sendo rastreada muito. Por outro lado, se você tiver uma página que está sendo muito rastreada e não tiver certeza do motivo, observe onde ela fica em seu site. Onde está vinculado? Quão longe está da raiz? Analisar isso pode indicar a você o que o Google gosta na estrutura do seu site. Em última análise, essa técnica pode ajudá-lo a identificar quaisquer problemas com a hierarquia e a estrutura do site.

9. Descubra páginas órfãs

Finalmente, com os dados de rastreamento importados, localizar páginas órfãs é fácil. As páginas órfãs podem ser definidas como páginas que os mecanismos de pesquisa conhecem e estão rastreando, mas não possuem links internos em seu site.

páginas órfãs

Selecionar a lista suspensa 'Não está nos dados de URL' exibirá os URLs que estão presentes nos registros, mas não nos dados de rastreamento . Portanto, os URLs que aparecem aqui serão páginas que os robôs dos mecanismos de pesquisa ainda acham que têm valor, mas não aparecem mais no site. Os URLs órfãos podem aparecer por vários motivos, incluindo:

  • Mudanças na estrutura do site
  • Atualizações de conteúdo
  • URLs redirecionados antigos
  • Link interno incorreto
  • Link externo incorreto

Em última análise, você precisa revisar os URLs órfãos que encontrar e fazer uma avaliação do que fazer com eles.

Pensamentos finais

Essa é minha breve introdução à análise de arquivo de log e 9 tarefas acionáveis ​​que você pode começar imediatamente com o Screaming Frog Log File Analyzer. Há muito mais que você pode fazer, tanto no Excel quanto com as outras ferramentas mencionadas acima (além de outras). Mais do que posso cobrir aqui! Abaixo estão alguns recursos que considero úteis:

7 perguntas técnicas fundamentais de SEO para responder com uma análise de arquivo de registro

O guia definitivo para a análise de arquivos de log

O valor da análise do arquivo de log

E há muito mais para ler que deve satisfazer os mais curiosos dos entusiastas técnicos de SEO!

Como você realiza a análise do arquivo de log? Quais ferramentas você acha que funcionam melhor? Nossa equipe de SEO adoraria saber. Comente abaixo.

Você acabou de aprender algo novo?

Então junte-se às 80.000 pessoas que leem nossos artigos de especialistas todos os meses.
  • Este campo é para fins de validação e deve ser deixado inalterado.

Se precisar de ajuda com seu SEO, não hesite em nos contatar.