Análisis de archivos de registro: 9 formas prácticas en las que se puede utilizar para SEO
Publicado: 2021-07-19En este artículo, cubriremos qué son los archivos de registro, por qué son importantes, qué buscar y qué herramientas usar. Finalmente, te daré 9 formas prácticas en las que puedes analizarlas para SEO.
¿Qué es un archivo de registro del servidor?
Un registro del servidor es un archivo de registro (o varios archivos) creado y mantenido automáticamente por un servidor que consta de una lista de actividades que realizó.
Para fines de SEO, nos preocupamos por un registro de servidor web que contiene un historial de solicitudes de página para un sitio web, tanto de humanos como de robots. A veces, esto también se denomina registro de acceso, y los datos sin procesar se parecen a esto:

Sí, los datos parecen un poco abrumadores y confusos al principio, así que desglosémoslos y veamos un "acierto" más de cerca.
Un ejemplo de éxito
Cada servidor es inherentemente diferente en el registro de visitas, pero generalmente brindan información similar organizada en campos.
A continuación se muestra un ejemplo de acceso a un servidor web Apache (esto está simplificado; algunos de los campos se han eliminado):
50.56.92.47 - - [01 / marzo / 2018: 12: 21: 17 +0100] “OBTENER” - “/wp-content/themes/esp/help.php” - “404” “-” “Mozilla / 5.0 ( compatible; Googlebot / 2.1; + http: //www.google.com/bot.html) ”- www.example.com -

Como puede ver, para cada visita recibimos información clave como la fecha y la hora, el código de respuesta del URI solicitado (en este caso, un 404) y el agente de usuario del que proviene la solicitud (en este caso, Googlebot ). Como puede imaginar, los archivos de registro se componen de miles de visitas cada día, ya que cada vez que un usuario o bot llega a su sitio, se registran muchas visitas para cada página solicitada, incluidas imágenes, CSS y cualquier otro archivo necesario para representar la página.
¿Por qué son importantes?
Entonces, ya sabe qué es un archivo de registro, pero ¿por qué vale la pena analizarlo?
Bueno, el hecho es que solo hay un registro real de cómo los motores de búsqueda, como el robot de Google, procesan su sitio web. Y eso es mirando los archivos de registro de su servidor para su sitio web.
Search Console, los rastreadores de terceros y los operadores de búsqueda no nos darán una idea completa de cómo Googlebot y otros motores de búsqueda interactúan con un sitio web. SÓLO los archivos de registro de acceso pueden proporcionarnos esta información.
¿Cómo podemos utilizar el análisis de archivos de registro para SEO?
El análisis de archivos de registro nos brinda una gran cantidad de información útil, que nos permite:
- Valide exactamente lo que se puede o no se puede rastrear.
- Vea las respuestas encontradas por los motores de búsqueda durante su rastreo, por ejemplo, 302, 404, 404 suaves.
- Identifique las deficiencias del rastreo, que podrían tener implicaciones más amplias basadas en el sitio (como la jerarquía o la estructura de vínculos internos).
- Vea qué páginas priorizan los motores de búsqueda y podrían considerar las más importantes.
- Descubra áreas de desperdicio de presupuesto de rastreo.
Lo guiaré a través de algunas de las tareas que puede realizar durante el análisis de su archivo de registro y le mostraré cómo pueden brindarle información útil para su sitio web.
¿Cómo consigo archivos de registro?
Para este tipo de análisis, necesita los registros de acceso sin procesar de todos los servidores web de su dominio, sin aplicar filtros ni modificaciones. Idealmente, necesitará una gran cantidad de datos para que el análisis valga la pena. La cantidad de días / semanas que valga esto depende del tamaño y la autoridad de su sitio y de la cantidad de tráfico que genera. Para algunos sitios, una semana puede ser suficiente, para algunos sitios puede necesitar un mes o más de datos.
Su desarrollador web debería poder enviarle estos archivos. Vale la pena preguntarles antes de que se lo envíen si los registros contienen solicitudes de más de un dominio y protocolo y si están incluidos en estos registros. Porque si no, esto te impedirá identificar correctamente las solicitudes. No podrá diferenciar entre una solicitud de http://www.example.com/ y https://example.com/. En estos casos, debe pedirle a su desarrollador que actualice la configuración del registro para incluir esta información en el futuro.
¿Qué herramientas necesito utilizar?
Si es un genio de Excel, esta guía es realmente útil para ayudarlo a formatear y analizar sus archivos de registro usando Excel. Personalmente, uso el Analizador de archivos de registro de Screaming Frog (cuesta $ 99 por año). Su interfaz fácil de usar hace que sea rápido y fácil detectar cualquier problema (aunque posiblemente no obtendrá el mismo nivel de profundidad o libertad que obtendría al usar Excel). Todos los ejemplos a los que le mostraré se han realizado con el Analizador de archivos de registro de Screaming Frog.
Algunas otras herramientas son Splunk y GamutLogViewer.
9 formas de analizar archivos de registro para SEO
1. Encuentre dónde se está desperdiciando el presupuesto de rastreo
En primer lugar, ¿qué es el presupuesto de rastreo? Google lo define como:
"Tomando la frecuencia de rastreo y la demanda de rastreo en conjunto, definimos el presupuesto de rastreo como la cantidad de URL que el robot de Google puede y quiere rastrear".
Esencialmente, es la cantidad de páginas que un motor de búsqueda rastreará cada vez que visita su sitio y está vinculado a la autoridad de un dominio y es proporcional al flujo de equidad de enlaces a través de un sitio web.
Fundamentalmente en relación con el análisis de archivos de registro, el presupuesto de rastreo a veces puede desperdiciarse en páginas irrelevantes. Si tiene contenido nuevo que desea indexar pero no le queda presupuesto, Google no indexará este nuevo contenido. Es por eso que desea monitorear dónde gasta su presupuesto de rastreo con el análisis de archivos de registro.
Factores que afectan el presupuesto de rastreo
Tener muchas URL de bajo valor agregado puede afectar negativamente el rastreo y la indexación de un sitio. Las URL de bajo valor agregado pueden pertenecer a estas categorías:
- Navegación por facetas, generación dinámica de URL e identificadores de sesión (común para sitios web de comercio electrónico)
- Contenido duplicado en el sitio
- Páginas pirateadas
- Páginas de error suave
- Contenido de baja calidad y spam
El desperdicio de recursos del servidor en páginas como estas agotará la actividad de rastreo de las páginas que realmente tienen valor, lo que puede causar un retraso significativo en el descubrimiento de buen contenido en un sitio.
Por ejemplo, al mirar estos archivos de registro, descubrimos que se visitaba con mucha frecuencia un tema incorrecto de WordPress, ¡esta es una solución obvia!

Cuando observe la cantidad de eventos que recibe cada página, pregúntese si Google debería molestarse en rastrear estas URL . A menudo encontrará que la respuesta es no. Por lo tanto, optimizar su presupuesto de rastreo ayudará a los motores de búsqueda a rastrear e indexar las páginas más importantes de su sitio web. Puede hacer esto de varias formas, como excluir las URL para que no se rastreen bloqueando las URL que contienen ciertos patrones con el archivo robots.txt . Echa un vistazo a nuestra útil publicación sobre el tema.
2. ¿Se están rastreando sus páginas importantes?
Hemos explicado por qué es importante para Google no desperdiciar el presupuesto de rastreo en sus páginas de bajo valor. La otra cara de la moneda es verificar que sus páginas de alto valor estén siendo visitadas con la importancia que les da. Si ordena sus archivos de registro por Número de eventos y los filtra por HTML, puede ver cuáles son sus páginas más visitadas.

Sería un tanto simplificado decir que sus URL más importantes deberían ser las más rastreadas; sin embargo, si es un sitio de generación de leads, desea que su página de inicio, las páginas de servicios clave y el contenido del blog aparezcan allí.
Como sitio de comercio electrónico, querrá que su página de inicio, las páginas de categorías y las páginas de productos clave aparezcan allí. Si ve una página de producto antigua que ya no vende y ninguna de sus páginas de categorías más importantes en estos resultados, tiene un problema.
3. Descubra si su sitio ha cambiado al índice Mobile-First de Google
Puede registrar el análisis de archivos para saber si su sitio web está obteniendo un mayor rastreo por parte de Googlebot Smartphone, lo que indica que se ha cambiado al índice de dispositivos móviles primero . A partir del 1 de julio de 2019, la indexación de dispositivos móviles primero está habilitada de forma predeterminada para todos los sitios web nuevos (nuevos en la web o previamente desconocidos para la Búsqueda de Google). Los propios Google han declarado:
“Para los sitios web más antiguos o existentes, continuamos monitoreando y evaluando las páginas según las mejores prácticas detalladas en esta guía. Informamos a los propietarios de sitios en Search Console la fecha en que su sitio cambió a la indexación de dispositivos móviles primero ". Prácticas recomendadas para la indexación de Google Mobile-first
Por lo general, un sitio que todavía se encuentra en el índice regular tendrá aproximadamente el 80% del rastreo de Google realizado por el rastreador de escritorio y el 20% por el móvil. Lo más probable es que haya sido cambiado a móvil primero, y si lo ha hecho, esos números 80/20 se revertirán.
Puede encontrar esta información mirando la pestaña Agentes de usuario en Screaming Frog Log Analyzer; debería ver la mayoría de los eventos provenientes de Mozilla / 5.0 (Linux; Android 6.0.1; Nexus 5X Build / MMB29P) AppleWebKit / 537.36 (KHTML, como Gecko) Chrome / 41.0.2272.96 Mobile Safari / 537.36 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html:

Si ha sido cambiado, también debería haber recibido una notificación en Google Search Console de que su sitio web tiene habilitada la indexación de dispositivos móviles. Alternativamente, también puede ver esto en el informe de cobertura.

4. ¿Están accediendo a sus páginas todos sus robots de motores de búsqueda dirigidos?
Siguiendo con los bots, esta es una verificación fácil de realizar. Sabemos que Google es el motor de búsqueda dominante y, por lo tanto, garantizar que Googlebot Smartphone y Googlebot visiten regularmente su sitio web debe ser su prioridad.
Podemos filtrar los datos del archivo de registro por bot del motor de búsqueda.

Una vez filtrado, puede ver la cantidad de eventos que registra cada uno de los bots de su motor de búsqueda deseado. Con suerte, verá al robot de Google Smartphone o al robot de Google visitando su sitio con mayor frecuencia.
También recomiendo comprobar cuánto visita su sitio web cada bot no deseado. Por ejemplo, si usted es una empresa británica que no desea vender bienes o servicios a Rusia o China, puede ver cuánto visitan su sitio los bots de Yandex y Baidu. Si están visitando una cantidad inusual (he visto en algunos casos que visitan más que Googlebot Smartphone), puede continuar y bloquear los rastreadores en su robots.txt.

5. Detección de códigos de estado incorrectos
Si bien obtenemos una tonelada de datos en el informe de cobertura de la consola de búsqueda de Google sobre 404, 200 válidos, los archivos de registro nos brindan una descripción general real de los códigos de estado de cada página. Solo los archivos de registro o el envío manual de la recuperación y el procesamiento de Google Search Console pueden permitirle analizar el último código de respuesta que habrá experimentado el motor de búsqueda.
Con su Analizador de archivos de registro de Screaming Frog, puede hacer esto rápidamente y, debido a que están ordenados por frecuencia de rastreo, también puede ver cuáles son potencialmente las URL más importantes para corregir.
Para ver estos datos, puede filtrar esta información en la pestaña de códigos de respuesta

Busque páginas con estados HTTP 3xx, 4xx y 5xx
- ¿Están siendo visitados con frecuencia?
- ¿Se visitan más páginas con 3xx, 4xx y 5xx que sus páginas importantes?
- ¿Hay patrones en los códigos de respuesta?
Con un proyecto, en sus 15 páginas principales con más visitas, hubo redirecciones , redirecciones 302 (temporales) incorrectas, páginas sin contenido y algunas que eran 404 y 404 suaves .
Con el análisis de su archivo de registro, una vez que haya identificado el problema, puede comenzar a solucionarlo actualizando las redirecciones incorrectas y los errores 404 suaves.
6. Resalte Códigos de respuesta inconsistentes
Si bien es importante analizar el último código de respuesta que habrá experimentado el motor de búsqueda, resaltar los códigos de respuesta inconsistentes también puede brindarle una gran información.
Si miró únicamente los últimos códigos de respuesta y no vio errores inusuales o picos en 4xxs y 5xxs, podría concluir sus verificaciones técnicas allí. Sin embargo, puede utilizar un filtro en el analizador de archivos de registro para ver únicamente las respuestas "inconsistentes" en detalle.

Hay muchas razones por las que sus URL pueden tener códigos de respuesta incoherentes. Por ejemplo:
- 5xx mezclado con 2xx: esto puede indicar un problema del servidor cuando están bajo una carga severa.
- 4xx mezclado con 2xx: esto puede indicar enlaces rotos que han aparecido o se han solucionado
Una vez que tenga a mano esta información del análisis de su archivo de registro, puede crear su plan de acción para corregir estos errores.
7. Auditoría de páginas grandes o lentas
Sabemos que el tiempo hasta el primer byte (TTFB), el tiempo hasta el último byte (TTLB) y el tiempo hasta la carga completa de la página influyen en la forma en que se rastrea su sitio. TTFB, en particular, es clave para que su sitio se rastree de manera rápida y efectiva. Dado que la velocidad de la página también es un factor de clasificación, podemos ver cuán crucial es un sitio web rápido para su rendimiento.
Al usar archivos de registro, podemos ver rápidamente las páginas más grandes de su sitio web y las más lentas.
Para ver sus páginas más grandes, ordene la columna 'Bytes promedio'.

Aquí podemos ver que los PDF constituyen las páginas más grandes del sitio web. Optimizarlos y reducir su tamaño es un buen punto de partida. Si está viendo aparecer páginas particulares aquí, es posible que desee verlas individualmente.
- ¿Están cubiertos de imágenes de alta resolución?
- ¿Tienen videos que se reproducen automáticamente?
- ¿Tienen fuentes personalizadas innecesarias?
- ¿Se ha habilitado la compresión de texto?
Si bien el tamaño de la página es un buen indicador de una página lenta, no lo es todo. Puede tener una página grande, pero aún puede cargarse rápido. Ordene la columna 'Tiempo de respuesta promedio' y podrá ver las URL con el tiempo de respuesta más lento.
Al igual que con todos los datos que ve aquí, puede filtrar por HTML, JavaScript, Imagen, CSS y más, lo cual es realmente útil para su auditoría.
Quizás su objetivo sea reducir la dependencia de su sitio web en JavaScript y desee detectar a los mayores culpables. O sabe que el CSS se puede optimizar y necesita los datos para respaldarlo. Es posible que su sitio se cargue a la velocidad de un caracol y el filtrado por imágenes le demuestra que el servicio de formatos de próxima generación debe ser una prioridad.
8. Compruebe los enlaces internos y la importancia de la profundidad de rastreo.
Otra gran característica de este analizador de archivos de registro es la capacidad de importar un rastreo del sitio web. Es realmente fácil de hacer y le brinda mucha más flexibilidad en lo que puede analizar de sus archivos de registro. Simplemente arrastre y suelte el rastreo en los 'Datos de URL importados' que se muestran a continuación.

Una vez que haya hecho eso, puede hacer un análisis más detallado.

Asegúrese de seleccionar en el menú desplegable 'Coincidido con datos de URL' y arrastre las columnas relevantes a la vista. Aquí podemos hacer un análisis masivo sobre el impacto que la profundidad de rastreo y los inlinks tienen en la frecuencia de rastreo de su sitio web.
Por ejemplo, si tiene páginas "importantes" que no se rastrean con frecuencia y observa que tienen muy pocos inlinks y la profundidad de rastreo es superior a 3, es muy probable que esta sea la razón por la que su página no se rastrea mucho. Por el contrario, si tiene una página que se está rastreando mucho y no está seguro de por qué, mire dónde se encuentra en su sitio. ¿Dónde está vinculado? ¿Qué tan lejos está de la raíz? Analizar esto puede indicarle lo que le gusta a Google sobre la estructura de su sitio. En última instancia, esta técnica puede ayudarlo a identificar cualquier problema con la jerarquía y la estructura del sitio.
9. Descubra las páginas huérfanas
Finalmente, con los datos de rastreo importados, es fácil detectar páginas huérfanas. Las páginas huérfanas se pueden definir como páginas que los motores de búsqueda conocen y que están rastreando, pero que no están vinculadas internamente en su sitio web.

Al seleccionar el menú desplegable 'No en datos de URL', aparecerán las URL que están presentes en los registros pero no en los datos de rastreo . Por lo tanto, las URL que aparecen aquí serán páginas que los robots de los motores de búsqueda todavía creen que tienen valor, pero que ya no aparecen en el sitio web. Las URL huérfanas pueden aparecer por muchas razones, entre las que se incluyen:
- Cambios en la estructura del sitio
- Actualizaciones de contenido
- URL redirigidas antiguas
- Enlace interno incorrecto
- Enlace externo incorrecto
En última instancia, debe revisar las URL de huérfanos que encuentre y decidir qué hacer con ellas.
Pensamientos finales
Esa es mi breve introducción al análisis de archivos de registro y 9 tareas procesables que puede comenzar de inmediato con el Analizador de archivos de registro de Screaming Frog. Hay mucho más que puede hacer, tanto en Excel como con las otras herramientas mencionadas anteriormente (y otras). ¡Más de lo que puedo cubrir aquí! A continuación se muestran algunos recursos que he encontrado útiles:
7 preguntas técnicas fundamentales de SEO para responder con un análisis de archivo de registro
La guía definitiva para el análisis de archivos de registro
El valor del análisis de archivos de registro
¡Y hay mucho más para leer que debería satisfacer a los entusiastas del SEO técnico más curiosos!
¿Cómo se realiza el análisis de archivos de registro? ¿Qué herramientas encuentras que funcionan mejor? A nuestro equipo de SEO le encantaría saberlo. Comenta abajo.
¿Has aprendido algo nuevo?
Entonces únase a las 80.000 personas que leen nuestros artículos de expertos cada mes.Si necesita ayuda con su SEO, no dude en contactarnos.
