Estaba revisando unos artículos de Google y Yahoo! en el que comentan el soporte al «X-Robots-Tag«, unas cabeceras que se pueden enviar desde el servidor sin necesidad de utilizar el robots.txt o los meta-tags.
En la actualidad podemos usar los robots.txt de una forma sencilla… se crea el fichero de texto robots.txt en la carpeta raiz del dominio o subdominio y se introducen datos para los robots de búsqueda:
User-Agent: *
Disallow: /administracion/
Allow: /administracion/fichero.html
Otra forma de conseguirlo es mediante los meta tags correspondientes a robots:
<meta name="all" content="noindex,follow,noarchive">
Y finalmente está este nuevo método X-Robots-Tag, que permitiría hacer cosas ya a nivel programación (por ejemplo en PHP):
header("X-Robots-Tag: noindex, follow", true);
o a nivel servidor web:
<FilesMatch "\.(pdf)$">
Header set X-Robots-Tag "index, noarchive"
</Files>
Diferentes formas para hacer lo mismo, cada una con sus ventajas y sus inconvenientes…