Manipulando el archivo robots.txt: comodines y restricciones múltiples (Parte 3)

Como veíamos en el anterior artículo, mediante el parámetro “Disallow” es posible manejar las restricciones que se imponen a cada spider o a todos ellos a la vez. En ocasiones, es posible que deseemos restringir la entrada a todo el sitio o permitirla, por lo que bastará con escribir:
Disallow: /
o bien
Disallow:
Los robots tomarán la ausencia de un valor para el parámetro como la posibilidad de navegar el website libremente. También existe la posibilidad de restringir varias carpetas o archivos puntuales, cada uno a un crawler diferente. Veamos el ejemplo de restricción al crawler de Google de tres archivos y una carpeta:
User-agent: Googlebot
Disallow: /enlaces.html
Disallow: /fotos/galeria1.html
Disallow: /fotos/galeria2.html
Disallow: /docs/
Google no podrá acceder a los archivos “enlaces.html”, “galeria1.html” y “galeria2.html”, ni a la carpeta “docs”.
A medida que avanzamos en la complejidad de los permisos, entran en juego los comodines que podremos usar. Uno de ellos lo hemos visto ya (*) y el otro ($) pasaremos a visualizarlo en el siguiente ejemplo:
User-agent: Googlebot
Disallow: /noticias/*
Disallow: /descargas/*
Disallow: /*.pdf$
Disallow: /info/*/page/*
Con los primeros dos “Disallow” estamos restringiendo la indexación de direcciones que comiencen con “noticias/” y “descargas/” (muy útil para blogs). La tercer línea elimina de la indexación los documentos PDF y la cuarta se encarga de evitar al buscador las páginas que sólo se diferencian en los comentarios (contenido duplicado).
En la siguiente entrega trabajamos sobre el contenido duplicado.

Comparte tu opinion con nosotros