A indexação automatizada é o processo pelo qual os robôs dos mecanismos de busca (também chamados de spiders ou crawlers) navegam sistematicamente pela web para descobrir, ler e indexar páginas da web. O crawler do Google, chamado Googlebot, rastreia continuamente a web para manter seu índice atualizado.
Como funciona a indexação automatizada?
Os mecanismos de busca começam com uma lista de URLs conhecidas, visitam cada página, leem seu conteúdo e seguem os links nessa página para descobrir novas URLs. Esse processo se repete continuamente em bilhões de páginas. Quando o Googlebot rastreia sua página, ele lê o HTML, segue links internos e externos, avalia dados estruturados e envia todas essas informações de volta para a infraestrutura de indexação do Google.
O que afeta a forma como o Google rastreia seu site?
- Orçamento de rastejamento: O número de páginas que o Google irá rastrear no seu site dentro de um determinado período. Sites grandes com muitas páginas de baixo valor podem esgotar esse limite. orçamento de rastreamento antes que o Googlebot chegue ao conteúdo importante.
- TXT: Um arquivo no diretório raiz do seu site que informa aos rastreadores quais páginas ou seções eles têm permissão para rastrear ou não.
- Ligação interna: Páginas sem links internos apontando para elas ('páginas órfãs') geralmente são completamente ignoradas pelos rastreadores.
- Velocidade do servidor: Servidores lentos fazem com que o Googlebot rastreie menos páginas por visita para evitar sobrecarregar o seu servidor.
- Mapa do site XML: O envio de um sitemap diretamente para o Google Search Console informa ao Googlebot quais URLs você deseja que sejam rastreadas e indexadas.
| Exemplo: Se o seu site de e-commerce tiver 50,000 páginas de produtos, mas também gerar 200,000 URLs de navegação facetada (como /produtos?cor=vermelho&tamanho=M), o Googlebot desperdiçará o orçamento de rastreamento nessas páginas de filtro em vez de rastrear as páginas de produtos reais. |
Perguntas Frequentes
Com que frequência o Google rastreia meu site?
A frequência de rastreamento varia enormemente dependendo da autoridade do site, da frequência de atualizações e da velocidade do servidor. Um grande site de notícias pode ser rastreado a cada poucos minutos. Um pequeno site novo pode ser rastreado uma vez a cada poucas semanas. Publicar conteúdo novo e obter links geralmente aumenta a frequência de rastreamento.
Posso impedir que o Google rastreie páginas específicas?
Sim. Use o arquivo robots.txt para bloquear seções inteiras ou adicione uma meta tag noindex a páginas individuais. Observe que o robots.txt bloqueia a indexação, mas não a indexação em si (o Google ainda pode indexar uma URL bloqueada se outros sites tiverem links para ela). A tag noindex impede a indexação mesmo que a página seja rastreada.
Termos relacionados: Googlebot · Orçamento de rastreamento · Robots.txt · Mapa do site · Indexação