Yandex ha comenzado a aplicar una técnica novedosa en el fichero de robots.txt, un sistema que Yahoo! Site Explorer ya permitía desde su panel pero no de forma sencilla para que los buscadores lo puedan interpretar.
En la ayuda para webmasters han incluido un capítulo en el que se detalla como poder corregir aquellos sitios en los que las direcciones web tienen parámetros variados, pudiendo sustituirlos por uno fijo. Este caso se da en muchos sitios de afiliados, por ejemplo, llevando a cabo muchos contenidos duplicados.
La idea es indicar en el fichero una línea que detecte la dirección / fichero que permite esos parámetros. Si tenemos alguna web con cosas como:
www.site.ext/some_dir/get.php?ref=site1&id=123
www.site.ext/some_dir/get.php?ref=site2&id=123
www.site.ext/some_dir/get.php?ref=site3&id=123
En este caso, vemos que el parámetro «ref» se repite, pero el resultado de la página sería el mismo, ya que la directiva la marca el «id». De esta forma indicaríamos en nuestro fichero de robots:
Clean-param: ref /some_dir/get.php
Con esto le decimos que el «ref» de la URL «/some_dir/get.php» se puede repetir… o mejor dicho, que «no lo tenga en cuenta».
Además, podemos llevar estos casos al extremo:
Clean-param: abc /forum/showthread.php
Este caso es el anterior: el parámetro «abc» no contará en cualquier URL que sea «/forum/showthread.php».
Clean-param: sid&sort /forum/*.php
En este caso, no contarán ni el parámetro «sid» ni el parámetro «sort» en una URL que tenga el formato «/forum/*.php».
Clean-param: someTrash&otherTrash
En este caso no contará, en cualquier URL del sitio, el parámetro «someTrash» ni el «otherTrash».
Ahora, la cuestión es que esto sólo funciona en el motor de búsqueda Yandex… ¿lo comenzarán a aplicar el resto de buscadores y se convertirá en un estándar internacional?