Robots.txt es un archivo de texto que se coloca en la raíz de un sitio web para indicar a los motores de búsqueda qué páginas o secciones pueden rastrear y cuáles deben evitar.
Es una herramienta importante para la gestión del SEO y el control del rastreo de un sitio web.
¿Para qué sirve?
- Controlar el acceso de los robots de búsqueda.
- Evitar el rastreo de páginas innecesarias.
- Optimizar el presupuesto de rastreo (crawl budget).
- Proteger áreas que no necesitan aparecer en buscadores.
- Facilitar la indexación de contenido importante.
¿Cómo funciona?
Motor de búsqueda visita sitio
↓
Lee el archivo robots.txt
↓
Recibe instrucciones
↓
Rastrea o ignora ciertas páginas
Ubicación del archivo
Generalmente se encuentra en:
https://www.ejemplo.com/robots.txt
Ejemplo básico
User-agent: *
Disallow: /admin/
Significa:
Todos los robots (*)
No pueden acceder a la carpeta /admin/
Elementos principales
User-agent
Indica a qué robot se aplica la regla.
User-agent: *
Disallow
Bloquea el acceso a una ruta específica.
Disallow: /privado/
Allow
Permite el acceso a una ruta.
Allow: /blog/
Sitemap
Indica la ubicación del mapa del sitio.
Ejemplo práctico
Una tienda en línea puede impedir que Google rastree:
Carrito de compras
Panel de administración
Páginas internas del sistema
Mientras permite indexar:
Productos
Categorías
Blog
Beneficios
✅ Mejor control del rastreo.
✅ Optimización SEO.
✅ Menor consumo de recursos del servidor.
✅ Organización del contenido indexable.
Importante
El archivo robots.txt no protege información confidencial. Solo indica a los motores de búsqueda qué no deben rastrear. Si una página requiere seguridad, debe protegerse mediante autenticación o permisos adecuados.
Diferencia entre Robots.txt y Noindex
| Robots.txt | Noindex |
|---|---|
| Controla el rastreo | Controla la indexación |
| Puede impedir que un robot visite una página | Permite la visita pero evita que aparezca en resultados |
| Se configura en un archivo | Se configura mediante etiquetas o encabezados |
Importancia para SEO
Un archivo robots.txt bien configurado ayuda a los motores de búsqueda a enfocarse en el contenido relevante del sitio, mejorando la eficiencia del rastreo y la gestión de la indexación.
En resumen
Robots.txt es un archivo de texto que indica a los motores de búsqueda qué partes de un sitio web pueden o no pueden rastrear, ayudando a controlar la indexación y optimizar el SEO.
« Regresar al Indice