Guia completo de robots.txt: o que é, como usar e exemplos práticos

Detalhamos as diretivas principais (User-Agent, Disallow, Allow, Sitemap), exemplos para cenários comuns, onde colocar o arquivo e erros que costumam prejudicar a indexação. Com isso, é possível criar ou ajustar seu robots.txt com segurança, controlando melhor o rastreamento dos buscadores.

O que é robots.txt

O robots.txt é um arquivo de texto simples que fica na raiz do site (ex.: https://seusite.com/robots.txt) e contém instruções para os robôs dos mecanismos de busca. Ele indica quais caminhos (diretórios ou arquivos) podem ou não ser rastreados e, opcionalmente, onde está o sitemap XML.

O robots.txt segue o padrão Robots Exclusion Protocol. Os buscadores respeitam as regras antes de começar a rastrear o site — mas é importante saber que o arquivo não garante segurança: ele é uma solicitação de boa prática, não uma barreira. URLs bloqueadas ainda podem aparecer nos resultados se forem linkadas em outros lugares. Para bloquear de fato da indexação, use meta robots ou X-Robots-Tag.

O robots.txt trabalha em conjunto com o sitemap XML: o sitemap lista as URLs que você quer indexar; o robots.txt pode indicar onde está o sitemap e quais áreas evitar. Os dois são pilares do SEO técnico.

Por que o robots.txt é importante para SEO

Um robots.txt bem configurado ajuda a indexação e evita problemas:

Direcionar o orçamento de crawl: o Google tem um limite de páginas que rastreia por site. Ao bloquear áreas irrelevantes (admin, painéis, arquivos de sistema), você prioriza o rastreamento das páginas importantes.
Evitar indexação de conteúdo duplicado ou sensível: páginas de login, busca, filtros e versões de impressão podem gerar duplicação. Bloquear no robots.txt reduz o risco de indexação indesejada.
Indicar o sitemap: a diretiva Sitemap ajuda o Google e o Bing a encontrarem o sitemap XML mais rápido.
Evitar bloqueios acidentais: um robots.txt mal configurado pode bloquear páginas importantes por engano. Saber usar as diretivas corretamente previne esse erro.

Um site sem robots.txt costuma ser rastreado normalmente; mas com um arquivo adequado, você controla melhor o que os robôs acessam e acelera a descoberta do sitemap.

Como funciona o robots.txt na prática

O arquivo usa blocos iniciados por User-Agent: e regras como Disallow: e Allow:. A ordem e a especificidade das regras importam.

User-Agent

O User-Agent identifica qual robô recebe as instruções do bloco. Use * para todos os robôs ou o nome específico (ex.: Googlebot, Bingbot). Cada bloco começa com User-Agent: e é seguido pelas diretivas até o próximo User-Agent.

Disallow e Allow

Disallow: indica caminhos que não devem ser rastreados. Disallow: / bloqueia todo o site. Disallow: /admin/ bloqueia o diretório /admin/. Você pode usar vários Disallow no mesmo bloco.

Allow: permite exceções dentro de áreas bloqueadas. Exemplo: Disallow: /pasta/ e Allow: /pasta/publica/ bloqueiam /pasta/ mas permitem /pasta/publica/.

Regras mais específicas têm prioridade. O Google interpreta da esquerda para a direita e usa a regra mais longa que corresponde ao caminho.

Sitemap

A diretiva Sitemap: informa a URL completa do sitemap XML. Pode aparecer em qualquer lugar do arquivo (no início, no fim ou entre blocos). É recomendável incluir sempre que você tiver sitemap. Exemplo: Sitemap: https://seusite.com/sitemap.xml

Exemplo básico de robots.txt

User-Agent: * Disallow: /admin/ Disallow: /painel/ Disallow: /wp-admin/ Allow: / Sitemap: https://seusite.com/sitemap.xml

Esse exemplo permite rastreamento em todo o site, exceto /admin/, /painel/ e /wp-admin/, e informa onde está o sitemap.

Crawl-delay (não suportado pelo Google)

A diretiva Crawl-delay: (em segundos) existe no padrão, mas o Google a ignora. Ela era usada por alguns buscadores antigos. Não conte com Crawl-delay para controlar a frequência do Google; use o Search Console para ajustar a configuração de rastreamento se necessário.

Onde colocar o robots.txt

O arquivo deve ficar na raiz do domínio, acessível em https://seusite.com/robots.txt. O nome deve ser exatamente robots.txt (minúsculas). Em subdomínios, cada um tem seu próprio robots.txt (ex.: https://blog.seusite.com/robots.txt).

O arquivo deve ser público (não protegido por login) e retornar status 200. O formato é texto plano (UTF-8); não use HTML ou XML. Linhas em branco e comentários (começando com #) são permitidos.

Checklist para configurar o robots.txt

Use este checklist ao criar ou revisar seu robots.txt:

Arquivo na raiz do domínio, em https://seusite.com/robots.txt
Nome exato: robots.txt (minúsculas)
Incluir bloco User-Agent: * para regras gerais
Bloquear diretórios sensíveis: /admin/, /painel/, /wp-admin/, /config/ (conforme seu site)
Bloquear URLs de busca, filtros e parâmetros que geram duplicação, se aplicável
Incluir Sitemap: https://seusite.com/sitemap.xml com URL completa e correta
Verificar se páginas importantes não estão bloqueadas por engano
Testar no Google Search Console (ferramenta "Testar robots.txt") antes de publicar mudanças

Use o gerador de robots.txt do Senior SEO para criar o arquivo de forma guiada e compatível com as boas práticas.

Ferramentas recomendadas para robots.txt

Ferramentas úteis para criar e validar o robots.txt:

Senior SEO — Gerador de robots.txt (gerador-de-robots-txt): interface guiada para criar robots.txt com User-Agent, Disallow, Allow, Sitemap e Crawl-delay. Gera o arquivo pronto para download. Gratuito.
Google Search Console: na ferramenta "Configurações" → "Robots.txt" você pode ver o arquivo atual e usar "Testar" para simular como o Google interpreta suas regras. Essencial para validar. Gratuito.
Validador online: acesse https://seusite.com/robots.txt no navegador e confira se o arquivo carrega corretamente e está legível.

Depois de criar o robots.txt, gere também o sitemap XML e inclua a URL na diretiva Sitemap para que os buscadores encontrem suas páginas com mais eficiência.

Erros comuns no robots.txt

Evite estes equívocos ao configurar o robots.txt:

Bloquear todo o site por engano: Disallow: / sem Allow impede o rastreamento de todo o conteúdo. Só use se a intenção for realmente bloquear tudo (ex.: site em desenvolvimento).
Bloquear páginas importantes: verifique se /blog/, /artigos/ ou outras URLs essenciais não estão em caminhos bloqueados. Um Disallow em /api/ pode bloquear mais do que o desejado se houver sobreposição.
Sitemap com URL incorreta ou incompleta: use HTTPS e o domínio completo. Ex.: Sitemap: https://seusite.com/sitemap.xml (não use caminhos relativos).
Arquivo em local errado: robots.txt só funciona na raiz. Colocar em /public/robots.txt ou /www/robots.txt faz o Google ignorar.
Formato incorreto: evite caracteres especiais, codificação errada ou sintaxe inválida. O Google pode ignorar regras mal formadas.
Confundir robots.txt com proteção de dados: robots.txt não protege informações sensíveis. Use autenticação e controle de acesso no servidor.

Perguntas frequentes sobre robots.txt

O que é robots.txt?

O robots.txt é um arquivo de texto na raiz do site que orienta os robôs dos mecanismos de busca sobre quais partes do site podem ou não ser rastreadas. Usa diretivas como User-Agent, Disallow, Allow e Sitemap.

O robots.txt impede que páginas apareçam no Google?

Não necessariamente. O robots.txt pede que os robôs não rastreiem certos caminhos, mas URLs bloqueadas ainda podem ser indexadas se forem linkadas em outros sites. Para bloquear da indexação de fato, use meta robots noindex ou X-Robots-Tag.

Onde colocar o arquivo robots.txt?

Na raiz do domínio, acessível em https://seusite.com/robots.txt. O nome deve ser exatamente robots.txt, em minúsculas. Cada subdomínio tem seu próprio robots.txt.

Preciso de robots.txt no meu site?

Não é obrigatório. Sites sem robots.txt são rastreados normalmente. Mas é recomendado para bloquear áreas irrelevantes, indicar o sitemap e direcionar o orçamento de crawl. Use o gerador de robots.txt para criar um arquivo adequado em segundos.

Conclusão

O robots.txt é um arquivo simples mas importante para controlar o rastreamento dos buscadores. Coloque-o na raiz do site, use User-Agent, Disallow e Allow para definir o que pode ser rastreado, inclua a diretiva Sitemap com a URL do seu sitemap XML e evite bloquear páginas importantes por engano. Use o gerador de robots.txt do Senior SEO para criar o arquivo de forma guiada e valide no Google Search Console antes de publicar mudanças críticas.

Quer criar ou corrigir seu robots.txt? Use o gerador de robots.txt do Senior SEO para criar um arquivo otimizado em segundos. Combine com o gerador de sitemap XML e a análise de SEO para uma base técnica completa.