Skip to main content

El rastreo profundo ahora es opcional

por Jaime Iniesta

TL;DR: Ahora puedes deshabilitar el rastreo de enlaces profundos para tener más control sobre las URLs específicas que incluir en tu informe de validación del sitio.

Escalera en espiral profunda

Foto por Alex Eckermann en Unsplash

Rocket Validator es básicamente un rastreador web automatizado que te ayuda a validar HTML y accesibilidad en sitios grandes. En lugar de verificar manualmente cada página web individual, puedes simplemente introducir una URL de inicio (típicamente, la página principal) y automáticamente descubriremos el resto de las páginas web internas siguiendo los enlaces.

Así de simple, no necesitas enviar una lista larga de URLs, solo proporciona una página web de inicio y descubriremos el resto del sitio. Para hacer esto, usamos un rastreador - también conocido como araña web. Básicamente funciona así:

  1. Envías una url de inicio, https://example.com
  2. El rastreador visita esa página y encuentra 3 enlaces internos:
  • /features
  • /blog
  • /pricing
  1. El rastreador entonces añade estas 3 páginas web al informe (y la verificación de HTML + accesibilidad comienza en otros trabajos en segundo plano).
  2. Luego cada una de estas páginas web también es visitada en busca de más enlaces internos. Eso es lo que llamamos rastreo profundo.
  3. Se descubren más páginas web para cada rama, por ejemplo:
  • /features
    • /features/awesome
    • /features/fantastic
  • /blog
    • /blog/2021
    • /blog/2020
    • /blog/2019
    • /blog/tags
  • /pricing
    • /pricing/basic
    • /pricing/pro
    • /pricing/premium
  1. El rastreo profundo continúa, buscando más enlaces en las páginas web descubiertas, hasta que alcanzamos el número máximo de páginas web solicitadas, o no encontramos más enlaces internos.

Las ventajas y desventajas del rastreo profundo

El rastreo profundo funciona genial en la mayoría de los casos, donde quieres validar un sitio web pequeño o mediano. Si sabes que tu sitio tiene unas 300 páginas web, puedes solicitar un informe para cubrir hasta 500 páginas web, y nuestro rastreador web descubrirá todo tu sitio.

La cosa es que no hay garantía en el orden de descubrimiento. El orden en que las páginas web de tu sitio serán descubiertas por nuestra araña web depende de diferentes factores como tiempos de respuesta, límites de velocidad o redirecciones. Si tienes un sitio web pequeño o mediano esto realmente no importa, porque todo tu sitio será descubierto al final, siguiendo un camino diferente en cada rastreo.

Ahora, ¿qué pasa en un rastreo de sitio grande?

Rocket Validator tiene un límite de 5,000 páginas web por informe, pero puedes usar sitemaps XML o de texto plano para organizar las páginas web en informes. Un sitemap XML o de texto es básicamente una lista de las URLs de tu sitio, comúnmente usado para hacer el trabajo más fácil para los motores de búsqueda.

Cuando usas un sitemap con las URLs de tus páginas web internas, estás haciendo mucho más fácil (¡y rápido!) para nuestro rastreador descubrir tu sitio. Básicamente, nuestras arañas web no necesitarán descubrir tu sitio porque nos estás diciendo explícitamente las URLs exactas que validar. Es en esos casos cuando deshabilitar el rastreo profundo es una buena opción porque de otro modo, páginas web adicionales pueden ser descubiertas vía rastreo profundo, lo que puede ser confuso.

Entonces en resumen:

  • Si tienes una lista exacta de URLs para validar y no quieres que se descubran páginas web extra de esas, entonces deshabilita el rastreo profundo en tus informes.
  • Si solo estás indicando algunas URLs para comenzar y te gustaría que esto sea automáticamente expandido por nuestras arañas web, entonces habilita el rastreo profundo en tus informes.

Para hacer esto, simplemente usa la nueva casilla de verificación Rastreo profundo en los formularios de Informe y Programación:

Casilla de verificación de Rastreo profundo

¿Listo para validar tus sitios?
Inicia tu prueba gratuita hoy.