TL;DR: Rocket Validator soporta sitemaps XML y de texto plano, úsalos para organizar la validación por lotes de sitios grandes.
Foto de Nathan Dumlao en Unsplash
Rocket Validator es un web crawler completamente automatizado que te ayuda a validar sitios grandes. Para realizar verificaciones HTML y de accesibilidad por lotes en las páginas web de un sitio grande, solo necesitas darle una URL inicial, y automáticamente rastreará el sitio, extraerá los enlaces, y validará cada página web encontrada.
Nuestro web spider encontrará las páginas web internas enlazadas extrayendo HTML de ellas, y añadiendo solo páginas web nuevas encontradas al informe de validación del sitio.
Como hay muchas rutas que atravesar siguiendo enlaces en un sitio, no hay garantía de las URLs exactas que nuestro web spider encontrará, cuando el sitio es más grande que el límite especificado en el informe. Además, puede tomar un tiempo descubrir las páginas web únicas en un sitio siguiendo los enlaces y descartando páginas web repetidas.
Cuando quieres tener más control sobre las URLs exactas a validar en un sitio web, y quieres hacerlo más fácil, y por tanto más rápido, para nuestro web crawler, puedes usar sitemaps XML o de texto plano como la URL inicial.
Es probable que tu sitio ya tenga un sitemap - típicamente estos se llaman sitemap.xml. Por ejemplo, aquí está nuestro sitemap XML y aquí está la versión de texto plano. Usamos estos sitemaps para enviar nuestras páginas web a los motores de búsqueda, y estos mismos sitemaps pueden ser usados con el crawler de Rocket Validator.
Sitemaps XML
Según sitemaps.org,
Los sitemaps son una forma fácil para que los webmasters informen a los motores de búsqueda sobre las páginas en sus sitios que están disponibles para rastrear. En su forma más simple, un sitemap es un archivo XML que lista URLs para un sitio junto con metadatos adicionales sobre cada URL (cuándo fue actualizada por última vez, qué tan seguido cambia usualmente, y qué tan importante es, relativa a otras URLs en el sitio) para que los motores de búsqueda puedan rastrear el sitio de manera más inteligente.
Aunque el protocolo de sitemaps XML puede incluir metadatos sobre las páginas web, Rocket Validator solo toma en cuenta las URLs, como se especifica en la etiqueta loc. En su forma más simple, aquí está la estructura que esperamos para un sitemap XML:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.example.com/first</loc>
</url>
<url>
<loc>http://www.example.com/second</loc>
</url>
</urlset>
En este ejemplo, vemos 2 páginas web siendo listadas. Mientras el content type sea text/xml y esta estructura sea respetada, Rocket Validator analizará tus sitemaps XML.
Sitemaps de texto plano
Hay una alternativa más simple cuando solo necesitas listar URLs, y no necesitas pasar metadatos adicionales - solo lista las URLs en texto plano, una URL por línea, así:
http://www.example.com/first
http://www.example.com/second
En este ejemplo, vemos las mismas 2 páginas web siendo listadas. Mientras el content type sea text/plain y haya una URL por línea, Rocket Validator analizará tus sitemaps de texto plano.
Organizando sitios grandes usando sitemaps
Puedes usar sitemaps XML o de texto plano para organizar las páginas web que quieres verificar por lotes en tus informes de sitio de Rocket Validator. Hay muchas razones para hacer eso:
- Controlar qué URLs exactas incluir en el informe. En lugar de dejárselo a las rutas aleatorias que nuestro web crawler puede encontrar descubriendo tus páginas web internas, puedes especificar las URLs exactas a validar usando un sitemap.
- Acelerar el rastreo. Al dar a nuestro web crawler una lista específica de páginas web a incluir, estás haciendo su trabajo más fácil y por tanto más rápido.
- Incluir más páginas web que el máximo permitido en un informe. Dependiendo de tu plan de suscripción, hay un límite en el número máximo de páginas web que un informe de sitio puede incluir. Por ejemplo, una suscripción Pro te da hasta 5,000 páginas web por informe. Una forma de validar un sitio con 10,000 páginas web es crear 2 sitemaps separados, uno para las primeras 5,000 páginas web y un segundo para las últimas 5,000 páginas web.
-
Organizar páginas web por secciones. Puede que quieras ejecutar diferentes informes en diferentes secciones de un sitio. Por ejemplo, puede que quieras tener un informe para el Blog y otro informe para la Tienda en tu sitio. Una buena forma de organizar esto es usando sitemaps, puedes tener
https://example.com/blog_sitemap.txtpara cubrir las páginas web en el Blog, yhttps://example.com/store_sitemap.txtpara cubrir las páginas web en la Tienda. Recuerda combinar esto con unmax_pagesque coincida con la longitud del sitemap, para evitar que el rastreo profundo encuentre otras páginas web fuera de esa sección.
Algunos consejos
Paginando sitemaps
Si estás generando tus sitemaps dinámicamente, puedes considerar incluir parámetros de paginación en la URL del sitemap. Por ejemplo:
https://example.com/sitemap.php?page_size=1000&page=1
Entonces, puedes decirle a tu script sitemap.php que genere las URLs en páginas de tamaño page_size, y retorne el número de página page.
Validando menos páginas web
Aunque tratar de validar un sitio completo es tentador, típicamente solo querrás validar una representación de tus páginas web. Por ejemplo, si tienes un blog, es probable que todos los posts en él compartirán el mismo diseño común, así que en lugar de validar todos tus posts, puedes considerar validar solo uno. Puedes por ejemplo incluir solo la lista de posts, un post de muestra, y una lista de etiquetas en tu sitemap.