robots.txt: codificación e idiomas

Interesante artículo sobre la codificación y uso del fichero robots.txt, sobretodo ahora que se está preparando el lanzamiento de muchos IDN en dominios internacionales.

Codificación del robots.txt (codificación del fichero)

En la actualidad el fichero robots.txt da soporte a las siguientes codificaciones:

  • ANSI (Windows-1252)
  • Unicode
  • UTF-8

Codificación del robots.txt (codificación del contenido)

En la actualidad el fichero robots.txt da soporte a las siguientes codificaciones:

  • ANSI (Windows-1252): 8 bits
  • ASCII: 7 bits
  • ISO-8859-1: 8 bits
  • UTF-8: 8 bits

Teniendo en cuenta esto y que la especificación de Internet dice que las direcciones URL han de estar en US-ASCII, tenemos un problema con elementos latinos como la ñ o ç que se salen de la especificación, y ya no hablemos de los no-latinos, como Ï€ o я.

¿Qué hacer en estos casos?

Si tu dirección URL dispone de alguno de estos caracteres que se salen de los 128 del US-ASCII, no se pueden utilizar directamente, sino que hay que pasarse a la «Codificación Porcentual«. Este sistema convierte cada uno de los caracteres en un hexadecimal, de forma que el crecimiento es mayor.

De esta forma, tendríamos que:

http://www.domain.com/папка/

debería usar un robots.txt con el siguiente texto:

Disallow: /%D0%BF%D0%B0%D0%BF%D0%BA%D0%B0/

y no el siguiente

Disallow: /папка/

1 comentario en «robots.txt: codificación e idiomas»

  1. Hola, un par de aclaraciones,

    ICANN lo único que hizo fue dar «amparo legal» a los nuevos dominios chinos, y estandarizar la creación de nuevos dominios, por ejemplo ahora será posible «dominio.ñ» y no solo «ñ.com» como hasta ahora.

    Ahora mismo ya existen los siguientes TLDs IDN ( http://data.iana.org/TLD/tlds-alpha-by-domain.txt )

    XN–0ZWM56D
    XN–11B5BS3A9AJ6G
    XN–80AKHBYKNJ4F
    XN–9T4B11YI5A
    XN–DEBA0AD
    XN–G6W251D
    XN–HGBK6AJ7F53BBA
    XN–HLCJ6AYA9ESC7A
    XN–JXALPDLP
    XN–KGBECHTV
    XN–ZCKZAH

    La creación de estas extensiones da para escribir varios artículos, sobre el «golpe de estado» que dieron desde apnic.

    Personalmente la gente de Bing puede decir lo que quiera, pero si yo tengo mi web usando UTF-8, el robots.txt también la usará. Para eso se inventaron las cabeceras http para indicar la codificación que tienen los ficheros de la web.

Deja un comentario