Manipulando el archivo robots.txt: contenido duplicado (Parte 4)

En muchas webs actuales, y por sobretodo en los blogs, es muy común encontrarse con varias URL distintas para acceder al mismo artículo o post. Por lo tanto, en un blog de cocina podrá accederse de distintas maneras a la receta de salsa boloñesa escrita el 20 de Marzo de 2010:
cocinablog.com/recetas/salsa-bolognesa (permalink básico y principal)
cocinablog.com/2010/03/ (permalink del archivo del mes de Marzo)
cocinablog.com/recetas/ (permalink de la categoría en que se incluyó el artículo)
cocinablog.com/recetas/salsa-bolognesa/page/2 (permalink de la segunda página con comentarios)
Si los buscadores se encuentran indexando tanta cantidad de vías distintas para el mismo contenido, penalizan seriamente al website. Es muy difícil que un post de un blog sea limitado a una sola vía de acceso, por lo que resulta absolutamente imprescindible restringir la entrada del spider a las “direcciones extra”.
Para acotar las direcciones que indexa un spider, la mejor opción obviamente es el uso de “robots.txt”. Sin embargo, es necesario tener suma precaución, sobretodo en el uso de los comodines. Puede ser realmente peligroso porque por ejemplo, se puede errar en el bloqueo de direcciones.
En la próxima entrega, trabajamos sobre la inclusión de un sitemap y el uso de ancho de banda del servidor.

Comparte tu opinion con nosotros