Robots meta e X-Robots-Tag: controle de indexação por página

Elaboramos o conteúdo a seguir com definição e diferença em relação ao robots.txt, meta robots no HTML e X-Robots-Tag no cabeçalho HTTP, diretivas (noindex, nofollow, noarchive, nosnippet), quando usar, como implementar, erros comuns e perguntas frequentes. Para o conjunto de meta tags (title, description, canonical, robots), veja meta tags essenciais para SEO; o gerador de meta tags do Senior SEO gera a tag robots.

O que são robots meta e X-Robots-Tag

Robots meta é a tag HTML <meta name="robots" content="..."> colocada no <head> da página. O X-Robots-Tag é um cabeçalho HTTP que o servidor envia na resposta da URL (por exemplo X-Robots-Tag: noindex). Os dois permitem instruir os buscadores por página: indexar ou não, seguir links ou não, exibir snippet em cache ou não. O Google e outros motores que suportam o padrão respeitam essas instruções para aquela URL específica.

O controle é por página: cada URL pode ter sua própria combinação de diretivas. Isso difere do robots.txt, que define regras por caminho (prefixos de URL) para todo o site. Robots.txt diz “não rastreie este caminho”; meta e X-Robots-Tag dizem “para esta URL, não indexe” ou “não siga os links”. Se uma URL for bloqueada no robots.txt, o robô não a busca e não vê a meta robots; para páginas já descobertas por links (e que você não quer no índice), noindex ou X-Robots-Tag é a solução. O guia de robots.txt do site cita: “Para bloquear de fato da indexação, use meta robots ou X-Robots-Tag.”

Robots meta e X-Robots-Tag vs robots.txt

Resumo da diferença:

Robots.txt: controle de rastreamento. Indica quais caminhos o robô pode ou não buscar. Fica na raiz do site; as regras valem por prefixo de URL. Não controla indexação diretamente: uma URL não rastreada não entra no índice porque o robô não a lê; mas se a URL for descoberta por um link em outro site, o Google pode não tê-la no robots.txt e acabar rastreando. Para “não indexar esta URL mesmo que ela seja rastreada”, use noindex ou X-Robots-Tag.
Meta robots / X-Robots-Tag: controle de indexação e comportamento por URL. Aplicam-se à página específica. Dizem “não inclua no índice”, “não siga os links”, “não mostre snippet em cache”, etc. Funcionam mesmo quando a URL é rastreada — o buscador obedece e não indexa ou não segue os links conforme a diretiva.

Em prática: use robots.txt para evitar que o robô gaste crawl em áreas inteiras (admin, busca interna, filtros). Use meta robots ou X-Robots-Tag quando precisar que uma página (ou tipo de página) exista e seja rastreada em alguns casos, mas não apareça nos resultados — ou quando não puder bloquear pelo robots.txt (por exemplo, URLs com parâmetros dinâmicos).

Diretivas principais: noindex, nofollow e outras

O conteúdo de content (meta robots) ou do cabeçalho X-Robots-Tag é uma lista de diretivas separadas por vírgula. As mais usadas:

noindex

Pedido para não incluir a página no índice de busca. A URL pode ser rastreada (se não estiver bloqueada no robots.txt), mas não deve ser exibida nos resultados. Use em: resultados de busca interna, páginas de impressão, versões alternativas que não devem competir (quando canonical não for o recurso escolhido), páginas de login, carrinho vazio, páginas de confidencialidade que você não quer ranquear.

nofollow

Pedido para não seguir os links da página (não transferir “suco” de link para os destinos). A página pode ser indexada, mas os links são tratados como não seguidos. Use quando a página for indexável mas os links não devam ser considerados como recomendação (ex.: área de conteúdo gerado por usuário sem moderação, páginas de login com link para “esqueci a senha”). noindex, nofollow juntos: não indexar e não seguir links.

index e follow

Valores padrão: indexar a página e seguir os links. Em geral não é necessário declarar; só use quando quiser reafirmar após ter outras diretivas em parte do site ou quando estiver sobrescrevendo uma regra global (por exemplo, X-Robots-Tag no servidor). content="index, follow" é o comportamento normal.

noarchive, nosnippet, noimageindex

noarchive: não mostrar link “Em cache” nos resultados. nosnippet: não exibir snippet de texto na SERP (só URL e título, por exemplo). noimageindex: não indexar as imagens da página. Úteis quando você quer a página no índice mas quer limitar o que o Google exibe ou indexa (imagens). Podem ser combinadas: noindex, nofollow, noarchive.

unavailable_after

Diretiva que o Google suporta: a página não deve ser exibida nos resultados após uma data/hora (formato RFC 850). Útil para conteúdo com validade (eventos, ofertas temporárias). Exemplo no X-Robots-Tag: X-Robots-Tag: unavailable_after: 31 Dec 2026 23:59:59 GMT.

Como implementar: meta robots no HTML

No <head> da página, inclua uma única tag com as diretivas desejadas:

Não indexar, seguir links: <meta name="robots" content="noindex, follow">
Não indexar, não seguir: <meta name="robots" content="noindex, nofollow">
Indexar e seguir (padrão): <meta name="robots" content="index, follow"> (opcional)
Não mostrar cache nem snippet: <meta name="robots" content="noarchive, nosnippet">

Use uma única tag meta name="robots" por página. Múltiplas tags com valores diferentes podem gerar comportamento indefinido (o Google costuma aplicar a restrição mais forte). Para páginas que devem ser indexadas, não coloque noindex; verifique em templates e CMS se não há noindex herdado em páginas importantes. O gerador de meta tags do Senior SEO inclui o campo robots e gera a tag.

Como implementar: X-Robots-Tag no servidor

O cabeçalho HTTP X-Robots-Tag é enviado na resposta do servidor para aquela URL. É útil quando você não controla o HTML (por exemplo, PDFs, imagens, páginas geradas por sistema) ou quando quer aplicar a diretiva de forma centralizada no servidor ou no proxy. O Google trata da mesma forma que a meta robots.

Exemplos:

X-Robots-Tag: noindex
X-Robots-Tag: noindex, nofollow
X-Robots-Tag: noarchive, nosnippet

Você pode enviar múltiplos cabeçalhos X-Robots-Tag (cada um com uma diretiva) ou um único cabeçalho com várias diretivas separadas por vírgula. A configuração depende do servidor (Apache, Nginx) ou do CMS. Em Apache, por exemplo, pode-se usar Header set X-Robots-Tag "noindex" em .htaccess ou no virtual host para um caminho específico.

Se a página tiver meta robots e X-Robots-Tag, o Google combina as diretivas (a restrição mais forte prevalece; por exemplo, noindex em um e index no outro resulta em noindex). Evite conflitos desnecessários: escolha uma forma por URL ou por tipo de página.

Quando usar noindex ou X-Robots-Tag

Resultados de busca interna: páginas com query string de busca não devem ser indexadas; use noindex (ou X-Robots-Tag) nessas URLs.
Páginas de impressão ou PDF alternativo: versão “para imprimir” ou “PDF” da mesma página; use noindex na variante que não deve ranquear (ou canonical na principal).
Login, carrinho, checkout: páginas que não fazem sentido aparecer na busca; noindex.
Páginas com conteúdo duplicado que não podem ser canonicalizadas: quando você não quer usar canonical (por exemplo, a URL é de outro sistema) e prefere que a página não entre no índice; noindex. Veja conteúdo duplicado.
Filtros e ordenação em e-commerce: URLs de filtro que geram o mesmo conteúdo; noindex ou canonical conforme a estratégia. Veja SEO para e-commerce.
Conteúdo sensível ou temporário: páginas que devem sair do índice após uma data; unavailable_after no X-Robots-Tag.

Não use noindex em páginas que devem ranquear (home, artigos, produtos, categorias). Um noindex acidental é uma causa comum de “minha página não aparece no Google”. Confira no artigo sobre site não aparecer no Google e no relatório de Indexação do Search Console.

Checklist: controle de indexação por página

Páginas que devem aparecer na busca: sem noindex; sem X-Robots-Tag noindex. Verifique templates e CMS.
Páginas que não devem aparecer (busca interna, login, impressão, variantes): meta robots noindex ou X-Robots-Tag noindex (e nofollow se os links não devem ser seguidos).
Uma única tag meta name="robots" por página; diretivas separadas por vírgula.
Se usar X-Robots-Tag no servidor, não conflitar com meta robots na mesma URL (evite noindex em um e index no outro).
Robots.txt para bloquear rastreamento de áreas inteiras; meta/X-Robots-Tag para controle fino por URL. Os dois se complementam.

Use a análise de SEO para checar se a página tem meta robots correta; no Search Console, o relatório de Indexação e a Inspeção de URL mostram se a página está “Não indexada” e o motivo (por exemplo, “noindex”).

Erros comuns com robots meta e X-Robots-Tag

Noindex em páginas importantes: homepage, artigos ou produtos com noindex não entram no índice. Revise templates e remova noindex das URLs que devem ranquear.
Várias tags meta robots na mesma página: use uma só tag com todas as diretivas (ex.: noindex, nofollow). Múltiplas tags podem confundir o buscador.
Achar que robots.txt “bloqueia da indexação”: robots.txt controla rastreamento. URLs já descobertas por links podem ser rastreadas se não estiverem bloqueadas; para não indexar, use noindex ou X-Robots-Tag.
Conflito entre meta e X-Robots-Tag: se o servidor envia X-Robots-Tag: noindex e o HTML tem content="index, follow", o Google tende a aplicar noindex. Alinhe a configuração para evitar surpresas.

Perguntas frequentes sobre robots meta e X-Robots-Tag

Meta robots e X-Robots-Tag são a mesma coisa?

Têm a mesma função (instruir o buscador sobre indexação e links), mas a forma é diferente: meta robots fica no HTML da página (<head>); X-Robots-Tag é um cabeçalho HTTP na resposta do servidor. O Google aceita os dois; se ambos estiverem presentes, as diretivas são combinadas (a mais restritiva prevalece).

Noindex impede o rastreamento?

Não. Noindex pede para não incluir a página no índice. O robô pode ainda rastrear a URL (se não estiver bloqueada no robots.txt) para descobrir links e obter a diretiva; ao ver noindex, ele não indexa. Para impedir o rastreamento, use robots.txt (Disallow).

Preciso de noindex em todas as páginas que estão no robots.txt?

Em geral não. Se uma URL está bloqueada no robots.txt, o Google não a rastreia e ela não entra no índice. Noindex é útil quando a URL pode ser rastreada (por exemplo, linkada de fora e fora do escopo do Disallow) ou quando você quer garantir que, mesmo que o robots.txt mude, aquela página não seja indexada. Em dúvida, usar noindex em páginas sensíveis (login, busca) não faz mal.

Como ver se minha página tem noindex?

Veja o código-fonte da página (clique direito → “Exibir código-fonte” ou DevTools) e procure por meta name="robots" ou name="robots". No Google Search Console, use a Inspeção de URL: digite a URL e confira se aparece “noindex” como motivo de não indexação. A análise de SEO do Senior SEO também indica as meta tags da página.

Conclusão

Robots meta e X-Robots-Tag permitem controlar a indexação por página: não indexar (noindex), não seguir links (nofollow), não mostrar cache (noarchive) ou snippet (nosnippet). Diferente do robots.txt (controle de rastreamento), meta e X-Robots-Tag aplicam-se à URL específica e são a forma correta de manter páginas fora do índice quando elas podem ser rastreadas. Implemente com uma única tag meta name="robots" content="..." no <head> ou com o cabeçalho HTTP X-Robots-Tag no servidor. Use noindex em busca interna, impressão, login e variantes que não devem ranquear; evite noindex em páginas importantes. Não confunda com robots.txt: para “não indexar esta URL”, use noindex ou X-Robots-Tag. O gerador de meta tags gera a tag robots; a análise de SEO ajuda a revisar a página.

Quer ver as meta tags da sua página? Faça uma análise de SEO gratuita no Senior SEO.