Robots.txt

« Back to Glossary Index

Robots.txt es un archivo de texto que se coloca en la raíz de un sitio web para indicar a los motores de búsqueda qué páginas o secciones pueden rastrear y cuáles deben evitar.

Es una herramienta importante para la gestión del SEO y el control del rastreo de un sitio web.


¿Para qué sirve?

  • Controlar el acceso de los robots de búsqueda.
  • Evitar el rastreo de páginas innecesarias.
  • Optimizar el presupuesto de rastreo (crawl budget).
  • Proteger áreas que no necesitan aparecer en buscadores.
  • Facilitar la indexación de contenido importante.

¿Cómo funciona?

Motor de búsqueda visita sitio
            ↓
Lee el archivo robots.txt
            ↓
Recibe instrucciones
            ↓
Rastrea o ignora ciertas páginas

Ubicación del archivo

Generalmente se encuentra en:

https://www.ejemplo.com/robots.txt

Ejemplo básico

User-agent: *
Disallow: /admin/

Significa:

Todos los robots (*)
No pueden acceder a la carpeta /admin/

Elementos principales

User-agent

Indica a qué robot se aplica la regla.

User-agent: *

Disallow

Bloquea el acceso a una ruta específica.

Disallow: /privado/

Allow

Permite el acceso a una ruta.

Allow: /blog/

Sitemap

Indica la ubicación del mapa del sitio.

Sitemap: https://www.ejemplo.com/sitemap.xml

Ejemplo práctico

Una tienda en línea puede impedir que Google rastree:

Carrito de compras
Panel de administración
Páginas internas del sistema

Mientras permite indexar:

Productos
Categorías
Blog

Beneficios

✅ Mejor control del rastreo.
✅ Optimización SEO.
✅ Menor consumo de recursos del servidor.
✅ Organización del contenido indexable.


Importante

El archivo robots.txt no protege información confidencial. Solo indica a los motores de búsqueda qué no deben rastrear. Si una página requiere seguridad, debe protegerse mediante autenticación o permisos adecuados.


Diferencia entre Robots.txt y Noindex

Robots.txt Noindex
Controla el rastreo Controla la indexación
Puede impedir que un robot visite una página Permite la visita pero evita que aparezca en resultados
Se configura en un archivo Se configura mediante etiquetas o encabezados

Importancia para SEO

Un archivo robots.txt bien configurado ayuda a los motores de búsqueda a enfocarse en el contenido relevante del sitio, mejorando la eficiencia del rastreo y la gestión de la indexación.


En resumen

Robots.txt es un archivo de texto que indica a los motores de búsqueda qué partes de un sitio web pueden o no pueden rastrear, ayudando a controlar la indexación y optimizar el SEO.

« Regresar al Indice