Ahora es la ocasión de Julien Law-To de Exalead. En principio comenta que en la parte de imágenes lo principal es sacar el reconocimiento de rostros, y de esta forma identificarlos.
De la misma manera pasaría con los vídeos… el principal objetivo es el reconocimiento de rostros y del contenido del vídeo, para poder llegar a hacer una búsqueda del tipo: reconocimiento del orador.
Para acabar, otro de los objetivos es el de la conversión de conversaciones a texto, algo que ya hacen con los vídeos y los audios, e incluso ha puesto un ejemplo de audio de una emisora de radio en español, aunque la transcripción no era excesivamente buena.