FOWS09: Freebase, socially managed identity database

FreebaseJamie Taylor de Metaweb nos presenta Freebase que es un proyecto en el que se quiere organizar todo lo que uno conoce.

La base de datos está organizada en varias categorías dentro de más de 5 millones de temas en este momento (más de 14 millones de entidades introducidas).

Cada uno de estos temas trata única y exclusivamente de una cosa, y se intenta clasificar de forma semántica según los diferentes tipos de datos.

De esta forma, los buscadores pueden llegar a acceder a esta base de datos libre y organizar algunas de las respuestas semánticas que necesitan. Uno de los que la utilizan ya es Powerset.

FOWS09: External mining of search query logs

Ziv Bar-YossefLa primera de las Keynotes del día la está realizando Ziv Bar-Yossef, de Google Haifa (Israel).

Los logs son algo bastante complejo para utilizar, por lo que tal vez no sea interesante investigar en los propios logs sino realizar una serie de consultas a los resultados de búsqueda.

El principal de los costes se calcula en base a la cantidad de consultas que se realizan en los servicios de búsqueda.

¿Por que realizar «external mining»?

  • Lo puede realizar cualquiera
  • No hay restricciones, sólo limitadas a la interfaz de los propios buscadores
  • Puede ser aplicado a los diferentes buscadores

Eso sí… Â¿esto es fiable? ¿es eficiante?

El estudio realizando en los últimos 2 años se basa en saber si son fiables y eficientes esta forma de extracción de datos.

Un detalle que hay que investigar es la cantidad de consultas que se realizan para unas palabras, si disponen de alguna relación con campañas publicitarias y el interés de la consulta (por ejemplo para Google Trends).

Para estimar los rankings, se puede estudiar cuantas veces aparece un documento (sitio web) en el TOP 10 de los resultados de búsqueda en una cantidad específica de tiempo. Con esto podemos tener información para herramientas como Google Trends for Websites o para Analítica Web.

Otro elemento a investigar son las palabras por las que aparecen esos sitios web. Con esto se puede investigar y extraer información para los «suggest» y anuncios y para encontrar sitios relacionados.

La información se puede tomar en base a la uniformidad y popularidad, además de sacar el ImpressionRank (que vendría a ser un ranking basado en las veces que aparece el sitio en los resultados de búsqueda). Con esto podemos llegar a sacar un sistema de evaluzación de los resultados de búsqueda, además de sacar un modelo de búsquedas informacionales, navigacionales, transacionales, comerciales o geolocalizadas.

Hoy en día la mayoría de los grandes buscadores ofrecen un sistema de sugerencias de búsquedas. Están basados en los «query logs», ordenadas por popularidad, anónimas y las «bad-queries» están filtradas.

Cuando el servidor de sugerencias recibe una consulta, encuentra el top sugerencias para esa consulta. Sólo se devuelve el TOP10 de esa consulta. Para calcular la fuerza de la estimación necesitamos una mezcla entre la información de la popularidad de la consulta junto a su ranking.

Los resultados de los sistemas de sugerencias podrían basarse en la popularidad o, por ejemplo en un sistema basado en un cálculo del volumen de búsquedas.

En resumen, podemos definir que hay 4 algorimos de minería:

Conclusiones

YouTube Caption Editor

Una de las posibilidades que tiene Youtube es la de insertar transcripciones de los vídeos dentro de Youtube, aunque hacerlo no es una tarea sencilla… y por eso se ha lanzado CaptionTube, una pequeña aplicación que te permite de una forma más simple transcribir los vídeos que aparecen en el sistema, y luego exportar el XML para importarlo.

Este servicio ha sido desarrollado por un trabajador de Google, John Skidgel, responsable de la parte de experiencia de usuario del gigante de Mountain View.

Y es que hay que tener en cuenta que la cantidad de usuarios que está comenzando a utilizar el servicio de transcripción está creciendo, sobretodo aquellos que no pueden permitirse tener el volumen muy alto y así combinan con el texto.

Google Sitelinks en línea

Hace tan sólo unos días comentábamos la aparición de los Sitelinks en una línea, con las mejoras que ello suponía.

Y es que hasta ahora los enlaces sólo estaban en el primero de los resultados de búsqueda apuntando a zonas más profundas del sitio, y con este cambio en el que aparecen en una única línea, van a aparecer en otros resultados de búsqueda. Eso sí, en vez de aparecer entre 6 y 8 resultados, aparecerán 4 enlaces a las diferentes secciones.

Hay que recordar que la gestión de estos enlaces se realiza desde las herramientas para webmasters donde puedes gestionar y bloquearlos (hasta 90 días), y que gracias a este cambio de formato se está mejorando para que la respuesta sea mucho mayor.

Yahoo! cierra Jumpcut

En septiembre de 2006, Yahoo! unía su servicio Yahoo! Video con el adquirido Jumpcut, que permitía editarlos directamente desde el sitio web.

Ahora, este servicio de edición de vídeo ya no estará disponible a partir del 15 de Junio, momento en el cual se avisará a los usuario de esta plataforma de la manera de descargarse aquellos vídeos editados con la herramienta.

Microsoft integra Cashback en Live Products

Hace ya casi un año que Microsoft lanzó Live Cashback, un sistema mediante el cual si vas a realizar una compra se te aplica un descuento de forma automática… y ahora ha decidido integrarlo dentro de buscador de productos, Live Products.

Esta actualización, implica algunos cambios y actualizaciones dentro del sistema:

  • Mejora de la relevancia y funcionamiento gracias a la compra de Jellyfish.
  • Las reseñas y opiniones aparecen junto a los productos
  • Se puede navegar a través de las funcionalidades y ordenar los productos por rankings.

Google cambia sus «search referrals»… se va a liar parda

Los programas de estadísticas se van a volver locos… ¿Por qué? Pues porque muchos de ellos calculan un formato de URL de Google desde la que llegan los resultados. Esa dirección suele ser:

www.google.com/search?q=flowers

seguida de varios parámetros. Y esa siempre ha sido el formato de referencia para saber si un usuario venía desde el buscador o no. Seguro que últimamente has notado que tus estadísticas muestran «más tráfico de Google», pero sin saber exactamente desde qué lugar…

Pues bien, como ya se comentó en su día, Google está cambiando su interfaz a AJAX (así ya no habrá manera de escanear sus resultados y muchos programas de «tracking SEO» van a dejar de funcionar.

Y es que las nuevas direcciones van a ser del estilo:

www.google.com/url?source=web&ct=res&cd=7&q=flowers

Con este cambio, aquellos programas de estadísticas (lógicamente, Google Analytics no se va a ver afectado) van a tener que hacer una actualización de sus sistemas para poder saber que el tráfico está llegando desde ahí. Hay que reconocer que al menos se han dignado a avisar de un cambio que podría trastocar el sistema analítico a nivel mundial.

Eso sí, hay un par de detalles interesantes, ya que en el nuevo sistema de URL podrían integrarse algunos parámetros como el puesto en los resultados de búsqueda, el identificador del buscador (imagenes, web, etc…) y algunos otros parámetros, que ahora no se envían.

Esto también deja clara una cosa y es que, aunque ahora mismo no funciona el sistema de resultados en AJAX, Google plantea lanzarlo de forma masiva, y probablemente internacional, en un breve espacio de tiempo (como pronto principios de Mayo) dejando un plazo de un par de semanas para que los sistemas se actualicen.

Orkut integra Google Latitude

El equipo de Orkut ha estado realizando una aplicación que va a permitir integrar Google Latitude dentro de la aplicación como si de una pestaña se tratase.

De esta forma, gracias a ello, se va a poder revisar dentro de un mapa la localización de los usuarios con los que tengas compartida tu localización.

Picasa muestra sus imágenes destacadas

Una nueva lista de mejoras en Picasa Web Albums nos deja una página muy interesante en la que poder ver las imágenes destacadas de este servicio de fotografías.

A parte de poder disfrutar de ellas, existe otra mejora que es la de poder recibir esa lista de imágenes por RSS, lo que podría llevar a tener un salvapantallas muy interesante que vaya variando según se vayan mostrando nuevas imágenes en este servicio.