Post on 07-Jul-2020
transcript
1
BusquedaBusqueda porpor ContenidoContenido Visual: TREC Visual: TREC2003 y la Web 2003 y la Web ChilenaChilena
Alejandro Jaimes, Javier Ruiz-del-Solar, R.Verschae, Dinko Yaksic, Ricardo Baeza-
Yates, Emilio Davis, Carlos Castillo
CIW, DIEUNIVERSIDAD DE CHILE
ContenidoContenido
� Introduccion
� TREC 2003
� La Web Chilena
� Conclusiones y Trabajo Futuro
2
IntroduccionIntroduccion
� Grandes cantidades diarias de video e imagenes
� Limitaciones de tiempo y otros recursos
� Objetivo es permitir busqueda eficiente, porcontenido visual, en grandes archivos de imagenesy video
BusquedaBusqueda porpor ContenidoContenido
Lo que aparece en la imagen…
3
BusquedaBusqueda porpor ContenidoContenido
Lo que aparece en la imagen…
TrabajoTrabajo Anterior Anterior
� Deteccion de objetos– Caras, cielo, edificios, vegetacion, etc.
� Clasificacion de escenas– Recinto cerrado (indoor), aire libre (outdoor), cuidad, paisaje,
etc.
� Video– Deteccion de escenas (scene cut detection)
� Muldimodal– Audio, texto, etc.
4
CambioCambio de de EscenaEscena
BusquedaBusqueda porpor ContenidoContenido U. Chile U. Chile
� TREC 2003
� Web de Chile
5
TREC 2003: TREC 2003: ObjetivosObjetivos
� Desarrollar proyecto de busqueda multimedia en launiversidad
� Formar alianzas de trabajo con lideres en el area
� Crear librerias de software para continuar este yotros proyectos relacionados
� Avanzar en investigacion
TREC 2003 TREC 2003 (National Institute for Standards & Technology)(National Institute for Standards & Technology)
� Objetivos generales– Promover progreso en busqueda por contenido mediante un
foro de participacion abierta
� Participantes– U. Chile, Columbia U., IBM Watson, IBM Almaden, CMU,
EUROCOM, NUS, etc,
� Tareas– Deteccion, busqueda, cambio de escena, segmentacion por
temas
� Datos– Aprox. 130 horas de video (noticas de CNN, ABC y C-SPAN)
6
TREC 2003TREC 2003
� Deteccion– Outdoors, Building, Road, Vegetation, Animal, Female
speech, Car/truck/bus, Aircraft, Non-studio setting,Sporting event, Weather news, Zoom in, Physical violence
– News subject face, News subject monologue, PeoplePerson x (Madeline Albright)
� Busqueda de “temas”– Interactiva (varias iteraciones)
– Automatica (un solo “query”)
TREC 2003: TREC 2003: BusquedaBusqueda de de TemasTemas
7
TREC 2003TREC 2003
TREC 2003: TREC 2003: FasesFases
� I. Anotacion
� II. Deteccion
� II. Busqueda
8
TREC 2003: TREC 2003: EjemploEjemplo AnotacionAnotacion
– Verwww.alphaworks.ibm.com(VideoAnnex)
TREC 2003- TREC 2003- AnotacionAnotacion
� Objetivos– Colaborar con mas de 20 grupos internacionales de
investigacion para dividir la tarea
� Tareas– Anotar manualmente 9 videos
� Resultados (anotacion preliminar)– 18,450 anotaciones (20 videos)– Mas frecuentes: texto, persona, cara, texto escena, cielo,
vegetacion, edificio, auto, arbol, etc.
9
TREC 2003- TREC 2003- DeteccionDeteccion
� Objetivos– Construir una libreria de detectores genericos (texto,
persona, cara, texto escena, cielo, vegetacion, edificio, auto,arbol, etc.)
– Construir detectores especificos (deteccion y reconocimientode caras)
– Clasificadores de escenas (presentador, close-up, etc.)
� Tareas– Extraer rasgos (color, textura, forma)– Entrenar clasificadores– Combinar detectores
TREC 2003- TREC 2003- DeteccionDeteccion GenericaGenerica
� Rasgos
– Area (1)– Radio de aspecto (alto/ancho) (1)– Centro de imagen (c/r a imagen original si es subimagen) (2)– Promedio de colores de pixeles en HSV (3)– Color dominante de pixeles cuantizados en HSV (3)– Cantidad de colores de percentil de presencia mayor a 2% (1)– Histogramas de bordes (4)– Textura
� Usar bloques
10
TREC 2003- TREC 2003- DeteccionDeteccion de de CarasCaras
� Arquitectura general
H(x)Clasificador
Pre -Procesamiento
Extractor deVentanas
……AnálisisMulti-Resolución
Imagen de Entrada Ventanas a ProcesarImágenes a MúltiplesEscalas
Procesamientode DeteccionesSobrepuestas
No-Cara
Cara
TREC 2003- TREC 2003- DeteccionDeteccion de de carascaras
� Detector Cascada
Filtro 2Filtro 1
Ventana deNo-Cara
Extractorde Ventanas
Filtro 21
Ventana deNo-CaraVentana de
No-Cara
……AnalisisMultiresolution
Imagen de Entrada Ventanas a ProcesarImagenes a MultiplesEscalas
…
Procesamientode DeteccionesSobrepuestas
11
TREC 2003- TREC 2003- DeteccionDeteccion de de carascaras
� Detector Hibrido
Filtro 3Filtro 2
Ventana deNo-Cara
Extractor deVentanas
Filtro 4 Filtro 21
Ventana deNo-Cara
Ventana deNo-Cara
Ventana deNo-Cara
Pre-Procesamiento
Detector deCaras
Wavelet
……AnalisisMultiresolution
Filtro 1
Ventana deNo-Cara
Imagen de Entrada Ventanas a ProcesarImagenes a MultiplesEscalas
…Procesamientode DeteccionesSobrepuestas
TREC 2003- TREC 2003- DeteccionDeteccion de de carascaras
� Filtro piel
12
TREC 2003- TREC 2003- DeteccionDeteccion de de carascaras
� Arquitectura Final
Filtro 3Filtro 1
Ventana deNo-Cara
Extractorde
Ventanas
Filtro 4 Filtro 21
Ventana deNo-Cara
Ventana deNo-Cara
Ventana deNo-Cara
Pre-Procesamiento
Detector deCaras
Wavelet
……AnalisisMultiresolution
Filtro Piel
Ventana deNo-Cara
Imagen de Entrada Ventanas a ProcesarImagenes a MultiplesEscalas
…Procesamientode DeteccionesSobrepuestas
…
TREC 2003- TREC 2003- DeteccionDeteccion de de carascaras
� Resultados (Sin piel)Híbrido (2 Seg.)Wavelet (30 Seg.)Cascada (0.5 Seg.)
13
TREC 2003- TREC 2003- DeteccionDeteccion de de carascaras
� Resultados (Con y sin piel)
TREC 2003- TREC 2003- NivelesNiveles AdicionalesAdicionales
14
ArquitecturaArquitectura de de InterfazInterfaz
Categorías:Forma de organizarlas imágenes
Elementos:Subdirectorios oimágenes asociadasa la categoría(keyframes)
ArquitecturaArquitectura de de InterfazInterfaz
� Lógico
� Físico
Categorías
Subdirectorios...Imágenes similares
según rasgo
Imágenes...
Video/Grupo/
...
DirectoriosPrincipales
...
Video1/Video2/Video3/
...
Subdirectorios
Enlaces aImágenes
...Base deDatos
Enlaces aImágenes
= Selección= Búsqueda
15
ArquitecturaArquitectura de de InterfazInterfaz
� Características– Facil de usar (tipo “browser”)
– Facil crear nueveas categorias (nuevosdirectorios � nuevas categorías)
– Escalable en cantidad de imágenes
– Escalable en cantidad de rasgos por imagen
BBúúsquedasqueda de de RasgosRasgos SimilaresSimilares
� Se busca las imágenes con mínima distancia euclidianapara el rasgo de la imagen seleccionada
Rasgo(s) seleccionado(s)en imagen
Rasgo(s)*
Imagen*
Base de Datos
Tabla de Rasgos
UbicaciónImágenesSimilares
Sistema deArchivos
Servidor Web
123
ImágenesSimilares
Imagen ... Rasgo
Se retorna las primeras N imágenes x, que satisfacen:Min[ (Rasgo1(x)-Rasgo1*)2 + (Rasgo2(x)-Rasgo2*)2 +...) ], tal que x � Imagen*
16
Web de ChileWeb de Chile
� Objetivos– Hacer un estudio, usando erramientas de busqueda por
contenido, sobre las imagenes en el web de Chile
� Tareas– Obtener un gran numero de imagenes de la web chilena
– Obtener estadisticas sobre las imagenes obtenidas
– Detectar caras automaticamente
– Extraer rasgos visuales y agrupar las imagenes
Web de Chile: Web de Chile: obtencionobtencion de de imagenesimagenes
� Dominios– Solo dominios .cl (exluyen https)
� Paginas– 15 niveles para paginas estaticas– 6 niveles para paginas dinamicas– Exluidas paginas marcadas “no-indexables”
� Seleccion– Todas las imagenes (.jpg, .bmp, .gif., etc.)– Excluidas .gif
17
Web de ChileWeb de Chile
� Ejemplos (IR VIEW)
Web de ChileWeb de Chile
� Resultados Caras
18
Web de Chile (WEKA)Web de Chile (WEKA)
� Resultados rasgos(mostrar weka)
Web de ChileWeb de Chile
� Estadisticas Web (aprox., 2002)
– No. Paginas 2 millones– Sitios: 38,307– Dominios: 34,867
� Estadisticas 2003– No. paginas bajadas: 800,000– No. links: 1´700,000
19
Web de Chile: Web de Chile: estadisticasestadisticas preliminarespreliminares
� Diponible incialmente: 8.1 millones de links a imagenes� 76 % gif� 20 % jpg� 0,69 % png� 0,12 % jpe� 0.04 % bmp� 3% no disponibles/malos
� Se seleccioaron jpg, pgn, bmg, jpeg– 1.7 millones de links a imagenes
� Se eliminaron linkeadas con php– 1.4 millones
� Se eliminaron repetidas (Obvias)– 600.000
� Aleatoreamente– 100,000 quedearon 72,000
� Caras detectadas: 16,306 (sin piel); 15,000 (con piel)
ConclusionesConclusiones
� Inicio de una libreria para la extraccion derasgos visuales en imagenes
� Interfaz flexible para visualizar coleccionesde imagenes
� Mejoramiento de detector de caras
� Inicio primer estudio sobre imagenes en laweb chilena
20
TrabajoTrabajo FuturoFuturo: TREC 2003: TREC 2003
� Deteccion
– News subject face, News subject monologue, People Person x(Madeline Albright)
– Vegetation, Aircraft, Outdoors, Building, Road, Animal,car/truck/bus, Non-studio setting
– Female speech, Sporting event, Weather news, Zoom in,Physical violence
� Busqueda
– Automatica (un solo “query”)
– Interactiva (varias iteraciones)
TrabajoTrabajo FuturoFuturo: Web de Chile: Web de Chile
� Aplicar detectores a imagenes de la web
� Agrupar imagenes de acuerdo a rasgos
� Obtener nuevas estadisticas de acuerdo adetectores
� Integrar con informacion textual