robots.txt

Por lo general, cuando se estudian situaciones SEO problemáticas, lo más normal es trabajar sobre el caso de un website abandonado que ha perdido ranking. Sin embargo, justamente por lo extraño del caso es que pocas veces se revisa una situación aún peor: el sitio que pierde ranking rápidamente, incluso mientras se trabaja sobre él.

Suele pasar que en un tiempo máximo de dos semanas, las cosas vuelvan a la normalidad. Pero si esto no sucede, entonces quizás sea momento de tomar cartas en el asunto y emplear algunos movimientos orientados a recuperar el posicionamiento anterior.

La primer alternativa es ingresar nuevamente el mapa de sitio o sitemap, tanto si es XML como si es TXT, revisándolo cuidadosamente para detectar alguna falla. Lo mismo podemos hacer con el archivo robots.txt, cuyas directivas entrañan el riesgo de denegar todo el sitio por un sintaxis errónea.

El siguiente paso es revisar las fechas de caché de los archivos más importantes en lo que a indexación respecta para asegurarse de que el indexado se hace con la frecuencia adecuada.

Como suele suceder, Google provee una herramienta para estos menesteres, la conocida página Google Webmaster Tools. Si no cuentas con el acceso (algo difícil si eres el experto en SEO de la página), deberás hablar con el dueño para conseguir el permiso.

Por lo general, los websites que uno construye terminan alojados en servidores contratados a empresas de hosting, ya que usualmente es un costo excesivo el mantenimiento de un servidor propio. Es así que muchas veces la respuesta del site a los requerimientos de un visitante no están en nuestras manos.

En ocasiones puede pasar que, buscando información o actualizando la ya disponible, un buscador husmee constantemente el sitio requiriendo accesos constantes al servidor. Cada petición exige una carga de trabajo que, si se repite excesivamente por un lapso prolongado de tiempo, ralentizará notablemente la velocidad de nuestro sitio.

Si se está en esa situación, una buena manera de disminuir este efecto es el siguiente código:

User-agent: MSNBot
Crawl-delay: 30

Escribiendo esas líneas, se imparte un intermedio de 30 segundos entre peticiones, lo que hará el ritmo más “soportable”.

Cómo explicamos anteriormente, un sitemap puede ser de gran utilidad en el proceso de indexación. Para incluir una referencia al mapa de sitio, bastará con el siguiente código:

Sitemap: www.misitioweb.com/docs/sitemap.xml

Es importante destacar que las instrucciones brindadas a los buscadores en el archivo robots.txt no son más que sugerencias. Los bots de buscadores las respetarán, pero es posible que robots programados para ingresar por fuerza bruta hagan caso omiso. Para trabajar sobre esas situaciones, se utiliza el archivo “.htaccess”, sobre el cuál hablaremos en una próxima serie de artículos.

En muchas webs actuales, y por sobretodo en los blogs, es muy común encontrarse con varias URL distintas para acceder al mismo artículo o post. Por lo tanto, en un blog de cocina podrá accederse de distintas maneras a la receta de salsa boloñesa escrita el 20 de Marzo de 2010:

cocinablog.com/recetas/salsa-bolognesa (permalink básico y principal)
cocinablog.com/2010/03/ (permalink del archivo del mes de Marzo)
cocinablog.com/recetas/ (permalink de la categoría en que se incluyó el artículo)
cocinablog.com/recetas/salsa-bolognesa/page/2 (permalink de la segunda página con comentarios)

Si los buscadores se encuentran indexando tanta cantidad de vías distintas para el mismo contenido, penalizan seriamente al website. Es muy difícil que un post de un blog sea limitado a una sola vía de acceso, por lo que resulta absolutamente imprescindible restringir la entrada del spider a las “direcciones extra”.

Para acotar las direcciones que indexa un spider, la mejor opción obviamente es el uso de “robots.txt”. Sin embargo, es necesario tener suma precaución, sobretodo en el uso de los comodines. Puede ser realmente peligroso porque por ejemplo, se puede errar en el bloqueo de direcciones.

En la próxima entrega, trabajamos sobre la inclusión de un sitemap y el uso de ancho de banda del servidor.

Como veíamos en el anterior artículo, mediante el parámetro “Disallow” es posible manejar las restricciones que se imponen a cada spider o a todos ellos a la vez. En ocasiones, es posible que deseemos restringir la entrada a todo el sitio o permitirla, por lo que bastará con escribir:

Disallow: /

o bien

Disallow:

Los robots tomarán la ausencia de un valor para el parámetro como la posibilidad de navegar el website libremente. También existe la posibilidad de restringir varias carpetas o archivos puntuales, cada uno a un crawler diferente. Veamos el ejemplo de restricción al crawler de Google de tres archivos y una carpeta:

User-agent: Googlebot
Disallow: /enlaces.html
Disallow: /fotos/galeria1.html
Disallow: /fotos/galeria2.html
Disallow: /docs/

Google no podrá acceder a los archivos “enlaces.html”, “galeria1.html” y “galeria2.html”, ni a la carpeta “docs”.

A medida que avanzamos en la complejidad de los permisos, entran en juego los comodines que podremos usar. Uno de ellos lo hemos visto ya (*) y el otro ($) pasaremos a visualizarlo en el siguiente ejemplo:

User-agent: Googlebot
Disallow: /noticias/*
Disallow: /descargas/*
Disallow: /*.pdf$
Disallow: /info/*/page/*

Con los primeros dos “Disallow” estamos restringiendo la indexación de direcciones que comiencen con “noticias/” y “descargas/” (muy útil para blogs). La tercer línea elimina de la indexación los documentos PDF y la cuarta se encarga de evitar al buscador las páginas que sólo se diferencian en los comentarios (contenido duplicado).

En la siguiente entrega trabajamos sobre el contenido duplicado.

Continuando un poco con las ventajas de modificar el fichero de texto “robots.txt”, podemos señalar también la posibilidad de eliminar el contenido duplicado de la indexación. Esto no es algo muy revisado en la mayoría de los casos, pero evitar que el robot de un buscador caiga en sectores que albergan el mismo contenido puede ser realmente perjudicial para nuestro ranking.

También es buena idea complementar la manipulación de “robots.txt” con el diseño de sitemap (mapa del sitio). Estos contienen un listado de las páginas del sitio o documentos a los cuáles el crawler puede acceder para recopilar información. Generalmente se presenta siguiendo un orden jerárquico, algo útil tanto para la indexación como para la navegación del usuario final.

Básicamente, para comenzar a trabajar con el fichero “robots.txt” es necesario crearlo, en lo posible dentro de la carpeta raíz del website (donde se encuentra el archivo “index.html” generalmente). A partir de aquí, tenemos una serie de parámetros con los cuales modificar el comportamiento de un spider.

Hay dos parámetros básicos que no se pueden evitar. El primero es “User-agent”, con el cual se especifica para que bot estamos planteando los permisos. El otro es “Disallow”, con el cual denegamos el acceso a una carpeta del website. Si queremos prohibir la entrada a una carpeta, a todos los buscadores, basta con escribir:

User-agent: *
Disallow: /nombreCarpeta/

Donde “nombreCarpeta” irá el nombre de la carpeta que deseemos restringir. Si dejamos el “*”, la regla será para todos los spiders. De lo contrario, deberemos especificar uno en particular.

Continúa en la tercera entrega.

robots.txt” es el nombre de un archivo de texto ubicado en la carpeta raíz de un website, utilizable para intentar el control de los “crawlers” que implementa cada buscador al momento de indexar las páginas y luego posicionarlas. Su uso entraña varias opciones a la vez que muchos beneficios. Iremos revisándolos poco a poco en esta serie de artículos.

En primer lugar, es importante repasar que los “crawlers” son aquellos sistemas automatizados mediante los cuales un buscador puede ingresar a una página web y recopilar información importante para el posicionamiento siguiendo la telaraña de links de la misma. Son también conocidos como “arañas”, “spiders” y “robots”.

Un beneficio palpable en este asunto es el control que se establece sobre la actividad de los robots. En ocasiones, estos pueden saturar de peticiones a un servidor, ocupando un excesivo ancho de banda en el mismo y complicando el trabajo del webmaster. Incluso puede irse más lejos, directamente “prohibiendo” la entrada de “crawlers” que nos resulten pesados y no reporten un gran beneficio.

Otra ventaja de manipular el archivo “robots.txt” es la indexación selectiva que podemos practicar. En ocasiones podemos necesitar que una serie de archivos y secciones estén en nuestro website pero pueden complicar el posicionamiento del sitio sobre ciertas “keywords”, en cuyo caso es mejor mantener estos archivos fuera de la vista para el buscador.

Sigue en la parte número dos.