En Rocket Validator, tratamos de darte los informes de validación HTML más completos para tus sitios, manteniendo nuestra herramienta lo más simple posible.
Para validar un sitio, solo necesitas introducir su URL principal y hacer clic en el botón "Submit". En unos segundos empiezas a recibir resultados, que se completan en solo unos minutos.
Pero, ¿qué pasa en nuestros servidores después de que haces clic en el botón "Submit"? Vamos a revisar nuestros procesos internos:
Primero, normalizamos la URL del sitio y resolvemos sus redirecciones para obtener la URL final y el estado. Por ejemplo, podrías haber escrito http://example.com pero la URL final después de seguir las redirecciones podría ser https://www.example.com/ - mantenemos esta dirección final como la correcta, que será utilizada en el resto del proceso.
Después de que se descubre la URL final de tu sitio, comienza el proceso de rastreo. Nuestro web crawler visita tu URL principal, lee los enlaces encontrados en ella, y para todos los enlaces internos descubiertos, los añade a la cola de procesamiento de páginas web.
De nuevo, para cada enlace interno normalizamos la URL y resolvemos sus redirecciones para obtener la URL final. Si siguen estando dentro del sitio principal, se añaden a tu sitemap.
A medida que las páginas web se descubren y se añaden a tu sitemap, lanzamos procesos en segundo plano en paralelo para validar el HTML en cada una de ellas y almacenar los problemas de HTML encontrados.
Tus páginas web serán validadas para verificar la conformidad del marcado HTML con los estándares del W3C. Para hacer esto, tenemos nuestros propios servidores con el software de validación oficial liberado como código abierto por el W3C. Mantenemos nuestros propios servidores para la validación HTML, alojados en el excelente servicio en la nube Digital Ocean. Esto nos permite escalar según sea necesario añadiendo servidores adicionales, así como actualizar el software cuando esté disponible una nueva versión.
Almacenamos los resultados de la validación para cada página: el número de errores y advertencias HTML, así como los errores específicos encontrados y la línea donde aparecen en el código fuente de tus páginas web.
Cada página web encontrada también será visitada por nuestro web crawler, para buscar más enlaces internos que estén dentro de la URL principal del sitemap. Se añadirán a la cola de procesamiento de páginas web, así que serán normalizados, resueltos, validados y, recursivamente, visitados para buscar más enlaces internos, repitiendo este proceso hasta que no podamos encontrar más páginas web en tu sitio o alcancemos el límite definido.
Otra parte importante de nuestra herramienta son las excepciones y reintentos. Hay varios puntos de posibles problemas temporales: puede haber timeouts, problemas de conectividad de red, sobrecarga... Para lidiar con esto, tenemos un mecanismo de reintentos que reintentará cada validación varias veces en caso de fallos temporales. Si siguen fallando después de eso, la excepción se almacena para que podamos investigar más a fondo su causa y mejorar nuestra herramienta.
¡Esa es la complejidad oculta detrás de un simple clic en un botón!