Interesante artículo sobre la codificación y uso del fichero robots.txt, sobretodo ahora que se está preparando el lanzamiento de muchos IDN en dominios internacionales.
Codificación del robots.txt (codificación del fichero)
En la actualidad el fichero robots.txt da soporte a las siguientes codificaciones:
- ANSI (Windows-1252)
- Unicode
- UTF-8
Codificación del robots.txt (codificación del contenido)
En la actualidad el fichero robots.txt da soporte a las siguientes codificaciones:
- ANSI (Windows-1252): 8 bits
- ASCII: 7 bits
- ISO-8859-1: 8 bits
- UTF-8: 8 bits
Teniendo en cuenta esto y que la especificación de Internet dice que las direcciones URL han de estar en US-ASCII, tenemos un problema con elementos latinos como la ñ o ç que se salen de la especificación, y ya no hablemos de los no-latinos, como Ï€ o Ñ.
¿Qué hacer en estos casos?
Si tu dirección URL dispone de alguno de estos caracteres que se salen de los 128 del US-ASCII, no se pueden utilizar directamente, sino que hay que pasarse a la «Codificación Porcentual«. Este sistema convierte cada uno de los caracteres en un hexadecimal, de forma que el crecimiento es mayor.
De esta forma, tendríamos que:
http://www.domain.com/папка/
debería usar un robots.txt con el siguiente texto:
Disallow: /%D0%BF%D0%B0%D0%BF%D0%BA%D0%B0/
y no el siguiente
Disallow: /папка/
Hola, un par de aclaraciones,
ICANN lo único que hizo fue dar «amparo legal» a los nuevos dominios chinos, y estandarizar la creación de nuevos dominios, por ejemplo ahora será posible «dominio.ñ» y no solo «ñ.com» como hasta ahora.
Ahora mismo ya existen los siguientes TLDs IDN ( http://data.iana.org/TLD/tlds-alpha-by-domain.txt )
XN–0ZWM56D
XN–11B5BS3A9AJ6G
XN–80AKHBYKNJ4F
XN–9T4B11YI5A
XN–DEBA0AD
XN–G6W251D
XN–HGBK6AJ7F53BBA
XN–HLCJ6AYA9ESC7A
XN–JXALPDLP
XN–KGBECHTV
XN–ZCKZAH
La creación de estas extensiones da para escribir varios artículos, sobre el «golpe de estado» que dieron desde apnic.
Personalmente la gente de Bing puede decir lo que quiera, pero si yo tengo mi web usando UTF-8, el robots.txt también la usará. Para eso se inventaron las cabeceras http para indicar la codificación que tienen los ficheros de la web.