Filtros y fórmulas

TelendroMe parecen excepcionales los dos artículos que comenta telendro estos días sobre el funcionamiento de Google.

El primero de ellos, Sandbox como filtro bayesiano menciona un artículo de iConsulting en el que se compara el Sandbox de Google con el funcionamiento de un filtro bayesiano. El resumen es que Google no filtra sitios web con su Sandbox, sino que filtra resultados de búsqueda dada una consulta.

El segundo, Número de resultados para cierta búsqueda, de algo que estos días estaba yo también dándole vueltas, es el porqué de que aparezcan tanta cantidad de resultados (más de 40.000) para una búsqueda que es prácticamente imposible que tenga más de 1.000. La fórmula secreta (no sé cómo la habrá conseguido, pero es excepcional) de cómo se calcula eso:

Formula de Google

Fit: Factor de incremento temporal
Valor asociado a la curva de incremento de resultados de una búsqueda concreta. Si en un espacio corto de tiempo aparecen muchos resultados (nuevos o no) para cierta búsqueda, Google corregirá con este factor la velocidad de indexación.
Ki: Constante de inflado.
Se multiplica todo por una constante para que quede claro cual es el buscador que más resultados ofrece.

Por eso: Número de resultados = (762 x 52) x 1,113 = 44.100

He de reconocer que al menos se están sacando datos provechosos, sean verdad o mentira… al menos salen ideas…

compuntoes

Antes de nada, espero que este post no llegue a salir entre los 50 primeros de ningún buscador. Aún así, si por alguna casualidad apareciera entre los posibles ganadores, queda escrito que los componentes de OJObuscador renuncian a cualquier premio posible.

Esta mañana a las 11 comenzaba el concurso del compuntoes. Lógicamente no voy a publicitar ningún sitio, y enlazo a una página que está limitada por robots para que todo lo que publique ahí no cuente en el concurso.

Hace unos días, hablando con parte del jurado del concurso, me hacía algunas preguntas absurdas a mi mismo… y esta mañana llegaba a su conclusión. Sigo sin entender porqué Ferran no ha querido que se puedan usar dominios genéricos… concursos como telendro o microsano no tenían ningún tipo de restricción… simplemente era «el mejor» y que corra el más rápido. Aunque, hay cosas que, personalmente, no me acaban de gustar…

Sí, yo es que soy un poco mal pensado, pero he de reconocer que cuando dirson montó el concurso de telendro (en el que no hubo ningún tipo de influencia sobre él o su trabajo o su sitio web), se lo montó de tal forma que fuera un juego… en cambio, esta mañana se podía leer en más de un comentario que era muy autobombo el concurso.

Pero, sí que estoy a favor y en contra de algunas cosas de este tipo de concursos. Por un lado considero que es muy interesante poder estudiar cómo van a reaccionar los diferentes motores de búsqueda frente a un ataque masivo como este. Y precisamente ahí encuentro la contra… ¿realmente vale la pena que los buscadores indexen todos estos sitios basura? Hay que reconocer que ninguna de las páginas que participan (al menos no las nuevas) van a tener algún tipo de contenido que sirva para algo. La mayoría de sitios simplemente incluyen decenas de veces la palabra a posicionar… como si eso les fuera a hacer ganar…

Personalmente creo que esto no es ser SEO… Un SEO es aquella persona que optimiza los resultados de búsqueda, optimiza páginas para mejorar sus resultados… no crea páginas para spamear los resultados de un motor de búsqueda; eso es ser un MAL SEO, un SEO que llena los resultados de búsqueda de basura para engañar a los usuarios que quieren encontrar.

Y para muestra sólo hay que hacer la búsqueda en Menéame… simplemente es muy triste llenar de basura sitios así.

Como decía al principio, voy a seguir el concurso para ver cómo reaccionan los buscadores, e intentaré, si el tiempo me lo permite, ir publicando conclusiones y enlaces que considere interesantes en nuestra página de compuntoes.

Sobre el nuevo Yahoo! Mail

Yahoo! MailA mediados de Julio me enviaron un mensaje de correo electrónico para poder tener la nueva versión beta de Yahoo! Mail y, no sé si es que ya está disponible para todos, pero, hoy he entrado y me ha dejado activar la nueva interfaz (también es posible que el haber entrado por mail.yahoo.com haya tenido algo que ver).

En fin, sólo tengo una palabra: espectacular. La verdad es que simplemente parece un programa de escritorio en el que se puede hacer de todo… arrastras correos, tiene pestañas, lector de feeds… Hay una página para ver las novedades de una forma sencilla.

Yahoo! Mail beta

Entre algunos detalles interesantes destacar el corrector ortográfico en español, la posibilidad de ver varios correos a la vez, la facilidad de enviar correos a los contactos de Yahoo! Messenger y el lector de feeds…

del.icio.us hace cloaking con Google

Hoy he tenido que madrugar más de la cuenta y me he encontrado con un artículo que no me esperaba en el que se comenta que del.icio.us hace cloaking a algunos robots de búsqueda, por lo que me he puesto a hacer experimentos porque no me lo podía creer.

Si visitamos la página SEO de del.icio.us con cualquier navegador y miramos el código fuente podremos ver que muestra lo siguiente:

del.icio.us SPAM

En cambio, si lo visitamos con un User-Agent que contenga Googlebot (con Slurp o MSNBOT no me pasa, aunque en Yahoo! se puede comporbar que también ocurre):

del.icio.us SPAM

Además, también ocurre lo mismo con el fichero robots.txt; si lo miramos de forma «normal»:

del.icio.us SPAM

Y así si «eres Google»:

del.icio.us SPAM

No sé… pero creo que voy a comenzar a utilizar del.icio.us para meter basura y posicionar mis sitios web con los tags que me parezca más conveniente… ¿no?

En fin, como datos «estadísticos»:

Los resultados de Google de este verano

De nuevo Matt ha anunciado un nuevo video sobre los datacenteres de Google y, sobretodo, comentando los cambios producidos este verano.

En general no comenta muchas cosas, pero sí que hay destacar alguna que otra. Una de ellas es que el comando SITE: se ha mejorado, pero aún no muestra los datos absolutos de las páginas indexadas de los sitios web.

Por otro lado vuelve a comentar sobre los Resultados Suplementarios que siguen su actualización completa, y que la actualización se hará de forma frecuente a partir de ahora.

Finalmente hace una interesante reflexión para los SEO’s y sobre el funcionamiento de Google que os comenté hace poco, en el que confirma que Google, desde hace unos meses, se actualiza casi completamente cada día y que los datacenters no muestran los mismos resultados entre elos (debido a esta actualización) por lo que no vale la pena molestarse en buscar las IP’s donde se ven esos cambios ya que al día siguiente es probable que haya cambiado.

En fin, se han acabado los Google Dance y toca ponerse manos a la obra… escribir, optimizar, y enlazar.

SEMPO Latino

Hoy se ha aprobado la creación de SEMPO Latino. Tras varias reuniones finalmente se han aprobado las necesidades para el mundo latino y en breve se pondrá en marcha toda la maquinaria para su funcionamiento.

Espero manteneros informados a partir de la semana que viene, cuando se acaben de ultimar los detalles.

Porqué Google paga por encontrar en MySpace

¿No te parece curioso que Google pague 900 millones de dólares a MySpace por que sea el buscador por defecto? Que sí, que con eso van a fidelizar a mucha gente, al igual que con AOL, pero… ¿no te sigue pareciendo extraño?

Para Google el hecho de que les dejen indexar al 100% MySpace, que puedan rastrear al máximo todos los datos sin problemas de tráfico ni nada, es más que un simple acuerdo, es todo un aprendizaje de la «nueva Internet».

Hoy en día uno de los lugares de donde más información podemos extraer es de la blogosfera, ya no por la cantidad, sino por lo interesante que se puede extraer de allí. Por un lado, se publica con bastante frecuencia (aunque luego, al poco tiempo el blog deje de actualizarse) pero, mientras lo hace, suele seguir unas normas curiosas, sobretodo por lo que hace a la interacción social. Y, si algo tiene MySpace es la interacción social entre sus usuarios, entre los contenidos que esos usuarios publican, todo el material multimedia que dispone…

Y es que esta es una de las formas más baratas que tiene Google de entrenar su algoritmo, darle de golpe millones de sitios, de blogs, de páginas con «chicha» que sirvan para aprender cómo escribe la gente, qué es lo que les interesa, hacia dónde va la Internet más joven…

Historia de los Buscadores: de 1993 a 2006

Hoy es otro día de esos en los que estoy contento de poder presentar (por ahora en formato web) uno de los trabajos de los que estamos más orgullosos, sobretodo porque ha habido una parte de investigación interesante.

Ayer acabamos de editar el documento: Historia de los Buscadores: de 1993 a 2006, que ya está disponible desde el campus OJObuscador. Además, me encanta el poder haber encontrado muhos de los «antiguos» logos de los buscadores…

No es ni el primero ni el último de los textos / manuales que vamos a poner a disposición del público, pero sí que creemos que es interesante dar a conocer la historia de los buscadores de una forma sencilla.

El índice de Google

Interesante el octavo vídeo de Matt Cutts en el que hace referencia a algunos detalles sobre el índice, actualizaciones y Pagerank de Google.

Sobre la actualización del índice comenta que antiguamente se actualizaba una vez al mes (todos recordamos los famosos Google Dance) en los que todo podía cambiar. En la actualidad el índice se actualiza cada día. Cuando hay cambios bruscos es debido a una incompatibilidad entre el nuevo índice y el antiguo, de forma que tiene que recalcularse completamente.

Sobre la actualización de los algoritmos comenta que se realizan con frecuencia y que sólo se cambia una vez se ha comprobado su eficacia. Matt habla sobre los cambios que ha habido en estos dos últimos meses recomendando a aquellos que han sido afectados que revisen posible sobre-optimizaciones y los contenidos, porque es probable que en «próximas ediciones» se les vuelva a colocar en los puestos que tenían (como decía, si se corrigen los sitios).

En definitiva, un dato curioso que se extrae es que, casi de forma oficial, Google está diciendo que el valor del Pagerank que estamos viendo en la «barrita verde» no es el verdadero ya que la actualización de los algoritmos es diaria y no se refleja (cosa que, en el fondo, todos ya sabíamos).

Dominio preferido para Google (con o sin www)

Estaba dándome un paseo por Google Sitemaps y me he encontrado con algo que no sé si llevará mucho tiempo pero que si Google lo utiliza al indexar puede ser muy interesante para evitar dominios y páginas duplicadas.

Si accedemos ala ficha de un dominio, en la primera pantalla, podremos ver un enlace a Dominio preferido que nos solicita lo siguiente:

Dominio preferido para Google

Por defecto no están relacionados… hay que pensar un par de cosas antes de elegir:

  • A veces no es lo mismo una página con www que sin www.
  • Si un dominio no tiene con www o no tiene sin www, no hay que asociarlos (no nos dejará).
  • Es necesario tener acceso a la validación del dominio para poder proceder a esta asociación.

Dominio preferido para Google

En el caso en que ambos dominios muestren los mismos contenidos, hay que decidir (es lo mejor) quedarse con una u otra opción, y así, supuestamente, evitar que el robots indexe la opción que no hemos elegido, y por tanto no haya páginas duplicadas en el índice de Google.