La primera de las Keynotes del día la está realizando Ziv Bar-Yossef, de Google Haifa (Israel).
Los logs son algo bastante complejo para utilizar, por lo que tal vez no sea interesante investigar en los propios logs sino realizar una serie de consultas a los resultados de búsqueda.
El principal de los costes se calcula en base a la cantidad de consultas que se realizan en los servicios de búsqueda.
¿Por que realizar «external mining»?
- Lo puede realizar cualquiera
- No hay restricciones, sólo limitadas a la interfaz de los propios buscadores
- Puede ser aplicado a los diferentes buscadores
Eso sí… Â¿esto es fiable? ¿es eficiante?
El estudio realizando en los últimos 2 años se basa en saber si son fiables y eficientes esta forma de extracción de datos.
Un detalle que hay que investigar es la cantidad de consultas que se realizan para unas palabras, si disponen de alguna relación con campañas publicitarias y el interés de la consulta (por ejemplo para Google Trends).
Para estimar los rankings, se puede estudiar cuantas veces aparece un documento (sitio web) en el TOP 10 de los resultados de búsqueda en una cantidad específica de tiempo. Con esto podemos tener información para herramientas como Google Trends for Websites o para Analítica Web.
Otro elemento a investigar son las palabras por las que aparecen esos sitios web. Con esto se puede investigar y extraer información para los «suggest» y anuncios y para encontrar sitios relacionados.
La información se puede tomar en base a la uniformidad y popularidad, además de sacar el ImpressionRank (que vendría a ser un ranking basado en las veces que aparece el sitio en los resultados de búsqueda). Con esto podemos llegar a sacar un sistema de evaluzación de los resultados de búsqueda, además de sacar un modelo de búsquedas informacionales, navigacionales, transacionales, comerciales o geolocalizadas.
Hoy en día la mayoría de los grandes buscadores ofrecen un sistema de sugerencias de búsquedas. Están basados en los «query logs», ordenadas por popularidad, anónimas y las «bad-queries» están filtradas.
Cuando el servidor de sugerencias recibe una consulta, encuentra el top sugerencias para esa consulta. Sólo se devuelve el TOP10 de esa consulta. Para calcular la fuerza de la estimación necesitamos una mezcla entre la información de la popularidad de la consulta junto a su ranking.
Los resultados de los sistemas de sugerencias podrían basarse en la popularidad o, por ejemplo en un sistema basado en un cálculo del volumen de búsquedas.
En resumen, podemos definir que hay 4 algorimos de minería: