Manipulando el archivo robots.txt: parámetros "user-agent" y "disallow" (Parte 2)

Continuando un poco con las ventajas de modificar el fichero de texto “robots.txt”, podemos señalar también la posibilidad de eliminar el contenido duplicado de la indexación. Esto no es algo muy revisado en la mayoría de los casos, pero evitar que el robot de un buscador caiga en sectores que albergan el mismo contenido puede ser realmente perjudicial para nuestro ranking.

También es buena idea complementar la manipulación de “robots.txt” con el diseño de sitemap (mapa del sitio). Estos contienen un listado de las páginas del sitio o documentos a los cuáles el crawler puede acceder para recopilar información. Generalmente se presenta siguiendo un orden jerárquico, algo útil tanto para la indexación como para la navegación del usuario final.

Básicamente, para comenzar a trabajar con el fichero “robots.txt” es necesario crearlo, en lo posible dentro de la carpeta raíz del website (donde se encuentra el archivo “index.html” generalmente). A partir de aquí, tenemos una serie de parámetros con los cuales modificar el comportamiento de un spider.

Hay dos parámetros básicos que no se pueden evitar. El primero es “User-agent”, con el cual se especifica para que bot estamos planteando los permisos. El otro es “Disallow”, con el cual denegamos el acceso a una carpeta del website. Si queremos prohibir la entrada a una carpeta, a todos los buscadores, basta con escribir:

User-agent: *
Disallow: /nombreCarpeta/

Donde “nombreCarpeta” irá el nombre de la carpeta que deseemos restringir. Si dejamos el “*”, la regla será para todos los spiders. De lo contrario, deberemos especificar uno en particular.

Continúa en la tercera entrega.

echo ' ';

Comparte tu opinion con nosotros

The content of this field is kept private and will not be shown publicly.
CAPTCHA
La siguiente pregunta te la hacemos para comprobar si eres humano o un robot tratando de enviarnos spam
Image CAPTCHA
Enter the characters shown in the image.