Skip to main content

O rastreamento profundo é agora opcional

por Jaime Iniesta

TL;DR: Você pode agora desativar o rastreamento de ligações profundas para ter mais controlo sobre os URLs específicos a incluir no seu relatório de validação do site.

Escadaria espiral profunda

Foto de Alex Eckermann no Unsplash

O Rocket Validator é basicamente um rastreador web automatizado que o auxilia na validação de HTML e acessibilidade em sites grandes. Em vez de verificar manualmente cada página web individual, você pode simplesmente introduzir um URL inicial (normalmente, a página inicial) e nós descobriremos automaticamente o resto das páginas web internas seguindo as ligações.

É assim tão simples, você não precisa de submeter uma lista longa de URLs, apenas forneça uma página web inicial e nós descobriremos o resto do site. Para isso, usamos um rastreador - também conhecido como spider web. Basicamente funciona assim:

  1. Você submete um url inicial, https://example.com
  2. O rastreador visita essa página e encontra 3 ligações internas:
  • /features
  • /blog
  • /pricing
  1. O rastreador adiciona então essas 3 páginas web ao relatório (e a verificação de HTML + acessibilidade começa noutras tarefas em segundo plano).
  2. Depois cada uma dessas páginas web é também visitada em busca de mais ligações internas. É isso que chamamos rastreamento profundo.
  3. Mais páginas web são descobertas para cada ramo, por exemplo:
  • /features
    • /features/awesome
    • /features/fantastic
  • /blog
    • /blog/2021
    • /blog/2020
    • /blog/2019
    • /blog/tags
  • /pricing
    • /pricing/basic
    • /pricing/pro
    • /pricing/premium
  1. O rastreamento profundo continua, procurando mais ligações nas páginas web descobertas, até atingirmos o número máximo de páginas web solicitadas, ou não encontrarmos mais ligações internas.

Os prós e contras do rastreamento profundo

O rastreamento profundo funciona muito bem na maioria dos casos, onde você quer validar um site pequeno ou médio. Se souber que o seu site tem cerca de 300 páginas web, pode solicitar um relatório para cobrir até 500 páginas web, e todo o seu site será descoberto pelo nosso rastreador web.

A questão é que não há garantia na ordem de descoberta. A ordem em que as páginas web do seu site serão descobertas pelo nosso spider web depende de diferentes fatores como tempos de resposta, limites de taxa, ou redirecionamentos. Se você tem um site pequeno ou médio isso não importa realmente, porque todo o seu site será descoberto no final, seguindo um caminho diferente em cada rastreamento.

Agora, o que acontece num rastreamento de site grande?

O Rocket Validator tem um limite de 5.000 páginas web por relatório, mas você pode usar sitemaps XML ou de texto simples para organizar as páginas web em relatórios. Um sitemap XML ou de texto é basicamente uma lista dos URLs do seu site, comummente usada para facilitar o trabalho aos motores de busca.

Quando você usa um sitemap com os URLs das suas páginas web internas, está a facilitar muito (e mais rapidamente!) o trabalho do nosso rastreador para descobrir o seu site. Basicamente, os nossos spiders web não precisarão de descobrir o seu site porque você está explicitamente a dizer-nos os URLs exatos a validar. É nesses casos que desativar o rastreamento profundo é uma boa opção porque, caso contrário, páginas web adicionais podem ser descobertas via rastreamento profundo, o que pode ser confuso.

Então, resumindo:

  • Se você tem uma lista exata de URLs para validar e não quer que páginas web extra sejam descobertas a partir dessas, então desative o rastreamento profundo nos seus relatórios.
  • Se você está apenas a indicar alguns URLs para começar e gostaria que isto fosse automaticamente expandido pelos nossos spiders web, então ative o rastreamento profundo nos seus relatórios.

Para isso, use simplesmente a nova caixa de verificação Deep Crawl nos formulários de Relatório e Agendamento:

Caixa de verificação Deep Crawl

Pronto para validar os seus sites?
Comece o seu teste gratuito hoje.