Seguimiento de Multiples Personas
considerando Oclusion Parcial y Total
en Escenarios Estacionarios No Controlados
Por
Carolina Reta Castro
Tesis sometida como requisito parcial
para obtener el grado de
DOCTORA EN CIENCIAS EN EL AREA DE
CIENCIAS COMPUTACIONALES
En el:
Instituto Nacional de Astrofısica, Optica y Electronica
Dirigida por:
Dr. Leopoldo Altamirano Robles
Puebla, Mexico
Junio de 2014
c©INAOE 2014
Derechos reservados
El autor otorga al INAOE el permiso de
reproducir y distribuir copias de esta tesis
en su totalidad o en partes.
A mis padres, Mariana y Refugio.
A mi esposo, Arturo.
Agradecimientos
A mi asesor, Dr. Leopoldo Altamirano Robles, por brindarme su apoyo en momentos
difıciles y por dirigirme durante el desarrollo de la tesis.
Al Dr. Jesus A. Gonzalez Bernal, investigador del INAOE, y al Dr. Rafael Medina
Carnicer, investigador de la Universidad de Cordoba en Espana, por su colaboracion
en los artıculos de investigacion derivados de la tesis.
A los Dres. Miguel O. Arias Estrada, Rene A. Cumplido Parra, Eduardo F. Morales
Manzanares y Luis E. Sucar Succar, investigadores del INAOE, y al Dr. Juan Lopez
Coronado, investigador de la Universidad Politecnica de Cartagena en Espana, por el
tiempo dedicado a la revision de esta tesis y sus valiosos comentarios.
Al grupo de investigacion Aplicaciones de la Vision Artificial de la Universidad de
Cordoba en Espana, por todo el apoyo que me brindaron durante mi estancia y por el
conocimiento que me compartieron.
Al CONACyT por otorgarme la beca No. 46341 para realizar mis estudios de Doc-
torado en Ciencias y a la Coordinacion de Ciencias Computacionales del INAOE por
encaminarme en la investigacion cientıfica.
Carolina Reta Castro.
Puebla, Mexico. Junio de 2014.
Resumen
El seguimiento de multiples personas en entornos reales es un problema desafiante,
principalmente porque la silueta deformable del cuerpo humano y la iluminacion va-
riable del entorno cambian con el tiempo la apariencia de las personas. Esta situacion
provoca una alta dificultad en la asociacion temporal de la identidad de las personas.
El problema se acentua cuando los individuos se mueven cerca de otros, se ocluyen, o
cambian abruptamente su trayectoria.
En esta tesis se propone un nuevo algoritmo de asociacion temporal para el segui-
miento individual y secuencial de multiples personas en escenarios no controlados a
partir de una camara estacionaria. El algoritmo de asociacion propuesto construye un
grafo de seguimiento a partir de un analisis de la interaccion de las personas y de me-
diciones con ruido proporcionadas por un esquema de deteccion de personas. El grafo
de seguimiento modela las relaciones espacio-temporales de las personas en la escena
para predecir y resolver oclusiones parciales y totales. Cuando se presenta un evento
de oclusion total, el algoritmo genera diversas hipotesis acerca de la ubicacion de la
persona ocluida considerando 3 casos: a) la persona mantiene su misma direccion y ve-
locidad, b) la persona adopta la direccion y la velocidad de su oclusor, y c) la persona
permanece inmovil durante la oclusion. Mediante el analisis del grafo de seguimiento
durante su construccion, el algoritmo propuesto es capaz de detectar falsos positivos y
falsos negativos en las mediciones de deteccion y tambien puede estimar la ubicacion
de personas no detectadas u ocluidas.
El algoritmo propuesto funciona aceptablemente en condiciones complejas, tales co-
mo: visibilidad parcial de los individuos para entrar o salir de la escena, interacciones
y oclusiones persistentes entre las personas, informacion incorrecta o faltante en la de-
i
teccion de las personas, ası como la variacion de la apariencia de la persona debido a
cambios en la iluminacion y distractores del fondo. El algoritmo fue evaluado en secuen-
cias de pruebas en el ambito de la vigilancia inteligente alcanzando una precision del
93%. Los resultados obtenidos muestran que el algoritmo secuencial propuesto supera
a algoritmos de seguimiento basados en trayectorias.
Palabras claves: seguimiento de personas, oclusion, grafo de seguimiento, genera-
cion de hipotesis, caracterısticas espacio-temporales, video vigilancia.
ii
Abstract
Multiple people tracking in real environments is a challenging problem. This hap-
pens because the deformable human silhouette and the varying illumination conditions
change the appearance of people over time. This situation causes a high difficulty in the
temporal association of people’s identity. The problem is emphasized when individuals
move close to each other, they are occluded, or they abruptly change their trajectories.
This work proposes a novel temporal association algorithm to sequentially and indi-
vidually track multiple people under uncontrolled sceneries from a single camera. Our
association algorithm builds a tracking graph from an analysis of the interaction of
people and from noisy measurements provided by a detection scheme. The tracking
graph models spatio-temporal relationships among attributes of interacting people to
predict and resolve partial and total occlusions. When a total occlusion event occurs,
the algorithm generates various hypotheses about the location of the occluded person
considering 3 cases: a) the person keeps the same direction and speed, b) the person
follows the direction and speed of the occluder, and c) the person remains motionless
during occlusion. By analyzing the graph while it is being built, the proposed algorithm
is able to detect trajectories produced by false positives in the detection measurements
and it can also estimate the location of missing or occluded people.
Our algorithm performs acceptably under complex conditions, such as: partial visi-
bility of individuals getting inside or outside the scene, continuous interactions and oc-
clusions among people, wrong or missing information on the detection of persons, as well
as variation of the person’s appearance due to illumination changes and background-
clutter distracters. Our algorithm was evaluated on test sequences from the intelligent
surveillance field, achieving an overall precision of 93%. Results show that our sequen-
iii
tial algorithm outperforms trajectory-based state-of-the-art algorithms.
Keywords: people tracking, occlusion, tracking graph, hypothesis management,
spatio-temporal features, video surveillance.
iv
Indice general
Resumen I
Abstract III
1. Introduccion 1
1.1. Motivacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Preguntas de investigacion . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5. Metodologıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5.1. Deteccion de regiones de interes . . . . . . . . . . . . . . . . . . 6
1.5.2. Deteccion de personas . . . . . . . . . . . . . . . . . . . . . . . 6
1.5.3. Representacion de las personas . . . . . . . . . . . . . . . . . . 6
1.5.4. Seguimiento de individuos . . . . . . . . . . . . . . . . . . . . . 7
1.5.5. Prueba y evaluacion . . . . . . . . . . . . . . . . . . . . . . . . 8
1.6. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.7. Organizacion del documento . . . . . . . . . . . . . . . . . . . . . . . . 9
2. Marco Teorico 11
2.1. Modelado adaptativo del fondo . . . . . . . . . . . . . . . . . . . . . . 11
2.1.1. Descripcion de las caracterısticas del modelo . . . . . . . . . . . 12
2.1.2. Algoritmo de modelado del fondo con multiples capas . . . . . . 13
v
2.2. Deteccion de objetos mediante bases activas . . . . . . . . . . . . . . . 16
2.2.1. Representacion de bases activas . . . . . . . . . . . . . . . . . . 16
2.2.2. Algoritmo de bosquejo compartido . . . . . . . . . . . . . . . . 18
2.2.3. Arquitectura de inferencia de mapas SUM-MAX . . . . . . . . . 20
2.3. Problema de asociacion . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.1. Formulacion del problema . . . . . . . . . . . . . . . . . . . . . 23
2.3.2. Algoritmo Hungaro . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3. Revision del trabajo previo 27
3.1. Introduccion al problema de seguimiento de personas con oclusion . . . 27
3.2. Seguimiento con multiples camaras . . . . . . . . . . . . . . . . . . . . 28
3.3. Seguimiento con una camara . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3.1. Seguimiento colectivo . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3.2. Seguimiento individual . . . . . . . . . . . . . . . . . . . . . . . 31
3.4. Enfoques de deteccion y representacion . . . . . . . . . . . . . . . . . . 32
3.5. Enfoques de asociacion temporal . . . . . . . . . . . . . . . . . . . . . . 37
3.5.1. Metodos de asociacion basados en detecciones . . . . . . . . . . 37
3.5.2. Metodos de asociacion basados en trayectorias . . . . . . . . . . 39
3.6. Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.7. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4. Metodo propuesto 45
4.1. Deteccion de personas . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2. Representacion de las personas . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.1. Modelo de forma . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.2. Modelo de apariencia . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.3. Modelo de movimiento . . . . . . . . . . . . . . . . . . . . . . . 51
4.3. Seguimiento de personas . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3.1. Descripcion del grafo de seguimiento . . . . . . . . . . . . . . . 52
vi
4.3.2. Representacion del grafo de seguimiento . . . . . . . . . . . . . 55
4.3.3. Algoritmo de asociacion temporal . . . . . . . . . . . . . . . . . 56
4.3.4. Relaciones de oclusion . . . . . . . . . . . . . . . . . . . . . . . 60
4.3.5. Asociacion por similitud . . . . . . . . . . . . . . . . . . . . . . 61
4.3.6. Actualizacion de atributos . . . . . . . . . . . . . . . . . . . . . 64
4.4. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5. Experimentos 67
5.1. Secuencias de prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.2. Evaluacion del esquema de deteccion . . . . . . . . . . . . . . . . . . . 69
5.3. Evaluacion del algoritmo de seguimiento . . . . . . . . . . . . . . . . . 76
5.4. Tiempos de procesamiento de los algoritmos . . . . . . . . . . . . . . . 82
5.5. Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.6. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6. Conclusiones 89
6.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
6.2. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
6.3. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
6.4. Artıculos de investigacion . . . . . . . . . . . . . . . . . . . . . . . . . 94
Bibliografıa 94
vii
Indice de figuras
2.1. Resultado de la deteccion de regiones en movimiento a partir del metodo
de modelado de fondo adaptativo . . . . . . . . . . . . . . . . . . . . . 15
2.2. Representacion con bases activas . . . . . . . . . . . . . . . . . . . . . 17
2.3. Algoritmo de bosquejo compartido . . . . . . . . . . . . . . . . . . . . 19
2.4. Algoritmo de mapas SUM-MAX . . . . . . . . . . . . . . . . . . . . . . 21
2.5. Representacion del problema de asociacion mediante un grafo bipartito. 23
2.6. Formulacion del problema de asociacion mediante una matriz de costos. 24
4.1. Etapas que componen el metodo de seguimiento propuesto. . . . . . . . 45
4.2. Esquema de deteccion de personas . . . . . . . . . . . . . . . . . . . . . 48
4.3. Grafo de seguimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.1. Escenarios de prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2. Comparacion del esquema de deteccion propuesto con el metodo HOG-
SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.3. Resultados del esquema de deteccion de personas propuesto para el con-
junto de datos USC 2005 . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.4. Evaluacion del rendimiento de deteccion para el conjunto de datos USC
2005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.5. Resultados del algoritmo de asociacion temporal propuesto en la secuen-
cia OneStopMoveEnter1 del conjunto de datos CAVIAR 2005 . . . . . 77
5.6. Resultados del algoritmo de asociacion temporal propuesto en la secuen-
cia S2-L1-View 008 del conjunto de datos PETS 2009 . . . . . . . . . . 78
ix
5.7. Resultados del algoritmo de asociacion temporal propuesto en la secuen-
cia p3v1view1 del conjunto de datos UCO 2011 . . . . . . . . . . . . . 79
x
Indice de tablas
4.1. Variables y funciones del algoritmo de asociacion temporal. . . . . . . . 58
5.1. Definicion de los parametros del algoritmo de asociacion temporal. . . . 86
5.2. Metricas de evaluacion para el seguimiento de objetos. . . . . . . . . . 87
5.3. Comparacion de los algoritmos de seguimiento para el conjunto de datos
CAVIAR 2005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.4. Evaluacion del algoritmo de seguimiento propuesto en distintos conjuntos
de datos de videovigilancia. . . . . . . . . . . . . . . . . . . . . . . . . 87
xi
Capıtulo 1
Introduccion
1.1. Motivacion
El seguimiento de personas en secuencias de imagenes es un tema de investigacion
muy activo en el area de vision por computadora. Su estudio esta motivado por la
importancia que tiene el reconocimiento e interpretacion automatica del movimiento
humano en el desarrollo de la tecnologıa de analisis de video. Existe un amplio rango
de aplicaciones donde el seguimiento de personas es de vital importancia, tales como:
vigilancia para la seguridad inteligente, analisis de la cinematica de los deportistas para
la planificacion de tecnicas deportivas, conteo de personas o pasajeros, cuidado de ninos,
personas enfermas y adultos mayores, entre otras.
El seguimiento de personas permite obtener informacion sobre las actividades que
realizan los humanos a traves del analisis de las caracterısticas de sus trayectorias. El
analisis de la posicion y/o trayectoria de un individuo permite determinar si este se
encuentra caminando, corriendo, saltando, esperando algo, invadiendo un area no per-
mitida, o bien desarrollando una actividad sospechosa. Relacionando la informacion de
las trayectorias de dos o mas individuos, es posible obtener informacion de sus inter-
acciones y determinar si las personas desarrollan actividades normales como caminar
en grupo, reunirse con otras personas, esperar a alguien; o si presentan una conducta
1
2 CAPITULO 1. INTRODUCCION
anormal como esconderse o alejarse fugazmente de otra persona.
El seguimiento de multiples personas es un problema de investigacion abierto cuan-
do las personas se desenvuelven en escenarios reales, como: parques, escuelas, bancos,
museos, hospitales, centros comerciales, lobbies, aeropuertos, sitios turısticos, paradas
del transporte publico, fronteras, edificios de interes para la policıa y el ejercito, entre
otros. El seguimiento de personas en ambientes reales es un problema complejo por las
siguientes razones:
1. El numero de personas que interactuan en la escena es desconocido y variable en
el tiempo, debido a que los individuos pueden entrar y salir del campo de vision
de la escena.
2. Las personas son objetos altamente articulados cuya forma presenta variaciones
como consecuencia de su propio movimiento. Ademas, la trayectoria de los indi-
viduos es compleja y puede estar sujeta a cambios repentinos e imprevisibles.
3. La apariencia de las personas en la escena no puede ser definida de manera antici-
pada. Esta varıa con el tiempo a consecuencia de cambios en la iluminacion de la
escena y ruido en el ambiente. La variacion en la apariencia de la persona puede
causar la perdida de la ubicacion del individuo en un lapso de tiempo especıfico
y por consecuencia, la fragmentacion de su trayectoria.
4. Las interacciones entre personas pueden bloquear de manera parcial o total la
vista de los objetos desde la perspectiva de la camara. Las oclusiones provocan
cambios en la apariencia del individuo y pueden llevar a la confusion o perdida
de las trayectorias de las personas involucradas.
En esta tesis se investiga el problema del seguimiento de personas aplicado a secuen-
cias reales de imagenes de vigilancia inteligente adquiridas con una camara estacionaria.
En este trabajo se propone un algoritmo de seguimiento capaz de localizar y mantener
la identidad de varias personas que pueden ocluirse en escenarios no controlados. El
algoritmo analiza las relaciones espacio-temporales de la interaccion de las personas
1.2. PLANTEAMIENTO DEL PROBLEMA 3
para predecir y resolver oclusiones parciales y totales. De igual forma, examina distin-
tas hipotesis sobre la ubicacion de las personas ocluidas con el fin de evitar su perdida
durante los eventos de oclusion total. El algoritmo propuesto afronta los problemas
inevitables en el seguimiento de multiples personas como son los cambios en la aparien-
cia del individuo, las oclusiones entre los objetos y la confusion de las identidades de
los mismos.
1.2. Planteamiento del problema
En esta tesis se plantea el problema de rastrear a multiples individuos en un escenario
estacionario no controlado. El problema consiste en estimar la ubicacion de cada persona
en cada fotograma de la secuencia y en determinar su trayectoria desde que esta entra
hasta que sale de la escena, aun cuando se perturbe la apariencia de la persona durante la
secuencia, se obtengan falsos positivos y falsos negativos en la deteccion de las personas,
y estas sean ocluidas parcial o totalmente por otras personas u obstaculos fijos. La
formalizacion de este problema se presenta a continuacion.
Sea Z el conjunto de M personas partıcipes en una secuencia de imagenes I con
duracion T . La secuencia de imagenes I = {I t ⊂ R2} varıa espacialmente en un conjunto
de pıxeles {x} ⊂ I t y temporalmente con t ∈ {1;T}. Cada persona es representada
como Zm, donde m ∈ {1;M}. Suponiendo que K mediciones de personas estan en
la escena en el tiempo t, vamos a referirnos a la medicion de la persona k ∈ {1;K}
como ztk y a denotar su historia de seguimiento como el conjunto de sus instancias
previas Hztk= (z1k′ , z
2k′ , ..., z
t−2k′ , zt−1
k′ ), donde zk′ adquiere el valor que le corresponde a
la medicion de la persona en el instante de tiempo respectivo.
Vamos a denotar el estado de visibilidad de la persona k en el tiempo t por V tk y
vamos a considerar eventos de oclusion binarios entre las instancias de las personas
rastreadas Otij ∈ {0, 1}, donde Ot
ij = 0 indica que no hay oclusion entre las personas i
y j. Para los objetos participantes en el evento de oclusion Otij = 1, vamos a definir la
funcion πtij ∈ {−1, 1} donde πt
ij = −1 indica que la persona j ocluye a la persona i, y
4 CAPITULO 1. INTRODUCCION
πtij = 1 indica que la persona i ocluye a la persona j.
En esta tesis se propone un algoritmo de seguimiento que permite relacionar a cada
representacion de persona Zm con una medicion ztk, a partir de la historia de segui-
miento Hzm de la persona, la informacion del estado de visibilidad V tk de la informacion
observada en la imagen xtk | xt−1
k , las relaciones de oclusion∪
Otkj, y las funciones de
oclusion∪
πtkj.
1.3. Preguntas de investigacion
La pregunta de investigacion principal que respondemos en esta tesis es:
¿En que medida es posible mantener el seguimiento personas ocluidas parcial o
totalmente a partir de informacion proporcionada por una camara utilizando la
evidencia de su deteccion y la relacion espacio-temporal de su trayectoria con la
de las otras personas que participan en una escena real?
Las preguntas secundarias que nos permitieron dirigir la investigacion y contestar
la pregunta principal son:
¿Ayuda el modelado espacial de las trayectorias de las personas en la ubicacion de
los individuos en la escena que presentan oclusiones parciales severas o totales?
¿En que grado ayuda la deteccion basada en segmentos de forma a localizar a las
personas ocluidas parcialmente en un fotograma de la secuencia?
¿Que caracterısticas de la apariencia y movimiento de las personas pueden ser
utilizadas para diferenciar a individuos ocluidos que presentan vestimenta similar
a su oclusor?
¿Que caracterısticas del aspecto del fondo y de las personas se deben modelar
para que el algoritmo de seguimiento se adapte a cambios en el ambiente?
1.4. OBJETIVOS 5
1.4. Objetivos
Objetivo general
Disenar un algoritmo de seguimiento capaz de ubicar y mantener la identidad co-
rrecta de multiples personas que pueden ocluirse, parcial o totalmente, a partir de una
secuencia de imagenes con escenarios no controlados adquirida por una camara estacio-
naria.
Objetivos particulares
1. Establecer un esquema de representacion de las personas que sea capaz de adap-
tarse a las variaciones en el aspecto de estas causadas por oclusiones parciales y
cambios en la iluminacion del ambiente.
2. Plantear un algoritmo que permita la deteccion de las oclusiones parciales y totales
originadas por la interaccion de las personas con otros elementos del ambiente.
3. Proponer un algoritmo que encuentre y efectue la correspondencia temporal de
personas ocluidas o no detectadas, a partir de un analisis de la informacion
espacio-temporal de la interaccion de las personas.
4. Disenar un algoritmo de seguimiento que a partir de mediciones de deteccion y
reglas de interaccion permita identificar y ubicar en cada instante de tiempo a las
personas que participan en un escenario estacionario no controlado.
1.5. Metodologıa
A continuacion se describen las tareas principales de la metodologıa propuesta en
esta investigacion.
6 CAPITULO 1. INTRODUCCION
1.5.1. Deteccion de regiones de interes
Para simplificar la busqueda de personas en la escena, en este trabajo se propone
detectar regiones en movimiento y regiones estacionarias.
La deteccion de las regiones en movimiento se efectuo mediante la sustraccion del
modelo del fondo de la escena en cada fotograma de la secuencia. La deteccion de las
regiones estacionarias se realizo aprovechando la informacion temporal de la ubicacion
y el area ocupada por los individuos en fotogramas previos.
El resultado del proceso de deteccion de regiones de interes es una imagen binaria
compuesta por multiples regiones, en la cual no existe necesariamente una correspon-
dencia entre las regiones en la imagen y los objetos en la escena.
1.5.2. Deteccion de personas
En esta tesis se propone un esquema de deteccion de multiples personas que restringe
la busqueda del modelo del objeto a las regiones de interes de la imagen, con la finalidad
de disminuir la tasa de falsos positivos en las mediciones de deteccion.
El modelo morfologico de la persona se obtuvo a traves del entrenamiento de image-
nes con personas mediante el algoritmo planteado por [WSGZ10]. El esquema de detec-
cion propuesto realiza un filtrado de este modelo en distintas escalas de la imagen para
encontrar el ajuste del modelo que representa a los objetos con distinto tamano. El area
de la region de interes ocupada por el modelo del individuo encontrado es analizada
por el esquema de deteccion propuesto para estimar la porcion visible del objeto.
El esquema de deteccion propuesto permite la deteccion de multiples personas en
los fotogramas de la secuencia, incluyendo situaciones donde las personas se encuentran
parcialmente ocluidas.
1.5.3. Representacion de las personas
Las personas son modeladas empleando atributos que describen su apariencia, forma
y movimiento.
1.5. METODOLOGIA 7
La identificacion de los individuos se consigue cuando la similitud de apariencia y
movimiento espacial entre los atributos de las mediciones de deteccion y los atributos
representados en los modelos de las personas rastreadas, es maximizada.
La metrica de similitud de apariencia sugerida en esta tesis es robusta ante la altera-
cion en las mediciones de deteccion provocada por distractores del fondo e interacciones
entre las personas. La metrica de movimiento espacial propuesta permite la asociacion
de las identidades de personas que se ubican cerca cuando la apariencia de la persona
cambia a consecuencia de las variaciones en la iluminacion del escenario.
La representacion propuesta es adaptativa debido a que en cada instante de tiempo
se actualizan los atributos de apariencia, tamano y movimiento de los objetos rastreados
de acuerdo con el modo en que estos interactuan con las otras personas y a los cambios
producidos en la iluminacion del escenario.
1.5.4. Seguimiento de individuos
En esta tesis se propone un algoritmo que permite el seguimiento individual de
multiples personas en escenarios estacionarios.
El algoritmo de seguimiento propuesto construye un grafo de seguimiento para mo-
delar a las personas que participan en el escenario a partir de reglas de interaccion y
de mediciones de deteccion. Estas reglas controlan la entrada y salida de los objetivos,
vinculan las mediciones de deteccion con las personas previamente rastreadas y dirigen
el seguimiento de estas cuando se encuentran ocluidas.
El algoritmo analiza las relaciones espacio-temporales de las personas rastreadas
para detectar eventos de oclusion parcial y total, y determina para cada evento cual es
el individuo oclusor y cual es el individuo ocluido. Esta informacion es utilizada para
actualizar correctamente los atributos de las personas durante las oclusiones.
Mediante el analisis del grafo de seguimiento, el algoritmo propuesto detecta falsos
positivos y falsos negativos en las mediciones de deteccion, y tambien estima la ubicacion
de personas no detectadas u ocluidas.
8 CAPITULO 1. INTRODUCCION
1.5.5. Prueba y evaluacion
El esquema de deteccion y el algoritmo de seguimiento propuestos fueron valida-
dos en secuencias de referencia enfocadas a la vigilancia inteligente. Las secuencias de
prueba fueron seleccionadas de los repositorios CAVIAR 2005 [CAV05], PETS 2009
[PET09] y UCO 2011 [UCO11], las cuales presentan situaciones complejas de interac-
ciones y oclusiones entre las personas. Las secuencias de prueba permitieron evaluar el
funcionamiento del algoritmo de seguimiento en ambientes de interiores y exteriores.
La evaluacion del esquema de deteccion y del algoritmo de seguimiento se llevo a
cabo mediante las metricas de evaluacion usadas en los trabajos previos. El esquema
de deteccion propuesto fue evaluado en las secuencias de prueba del repositorio CA-
VIAR, alcanzando una precision del 87%. La evaluacion del algoritmo de seguimiento
se llevo a cabo mediante las metricas de evaluacion usadas en los trabajos previos. El
algoritmo de seguimiento consiguio una precision global del 93% en las secuencias de
los repositorios de evaluacion. En las secuencias de prueba del repositorio CAVIAR,
el algoritmo de seguimiento propuesto obtuvo una precision del 88.9%, superando los
resultados obtenidos por los algoritmos del trabajo previo de [ZLN08] y [SJSRC10].
1.6. Contribuciones
En este trabajo de investigacion se propone una solucion al problema de seguimiento
de multiples personas en situaciones complejas con presencia de oclusion en escenarios
reales. Las contribuciones derivadas de esta tesis son:
1. Un esquema de deteccion de multiples personas que pueden presentar oclusion
parcial (apartado 4.1).
2. Un modelo de la interaccion de las personas que predice oclusiones parciales y
totales y establece el orden de las personas implicadas en la oclusion (apartado
4.3.4).
1.7. ORGANIZACION DEL DOCUMENTO 9
3. Un algoritmo para efectuar la correspondencia temporal entre trayectorias exis-
tentes y personas ocluidas o no detectadas (apartado 4.3.3).
4. Un algoritmo de seguimiento que permite identificar a las personas que participan
en la escena y estimar su ubicacion en cada instante de tiempo, aun cuando se
encuentren ocluidas (apartado 4.3.3).
Este trabajo aporta conocimiento al area de vision por computadora en el tema
de seguimiento de multiples personas, pues los algoritmos aquı propuestos permiten
determinar en todo momento que individuos estan visibles u ocluidos en la escena y en
donde se encuentran.
1.7. Organizacion del documento
La tesis esta organizada de la siguiente manera. En el capıtulo 2 se describe el marco
teorico. En el capıtulo 3 se realiza un analisis de los trabajos previos que han sido desa-
rrollados para el seguimiento de personas, enfatizando las ventajas o limitaciones que
presentan para ser aplicados en situaciones reales. En el capıtulo 4 se explican el mode-
lo propuesto para la representacion de las personas y el algoritmo de correspondencia
temporal que permiten mantener el seguimiento de personas ocluidas. En el capıtulo
5 se presentan los conjuntos de prueba que fueron usados en la validacion del siste-
ma de seguimiento propuesto. De igual forma se muestran los experimentos, resultados
alcanzados y la comparacion con trabajos previos. En el capıtulo 6 se presentan las
conclusiones, el trabajo futuro propuesto y los artıculos derivados de este trabajo de
investigacion. Por ultimo, se enlistan las referencias utilizadas en esta tesis.
Capıtulo 2
Marco Teorico
En este capıtulo se explican los fundamentos de los algoritmos utilizados en este
trabajo de investigacion, los cuales permitieron el desarrollo del esquema de deteccion
de multiples personas y del metodo de asociacion por similitud propuestos.
2.1. Modelado adaptativo del fondo
En esta tesis la busqueda de las personas en la escena se reduce a las regiones de la
imagen que indican movimiento. Estas regiones se obtienen mediante la comparacion
del modelo del fondo de la escena con cada fotograma de la secuencia.
El fondo de la escena es modelado empleando multiples capas mediante el metodo
propuesto por [YO07]. La aplicacion de este es apropiada en escenarios estacionarios
porque permite la adaptacion del modelo de apariencia del fondo ante cambios locales
en la iluminacion del ambiente, y movimiento de los objetos del primer plano. Ademas,
el metodo se adapta a la aparicion y desaparicion de objetos estacionarios de larga
duracion y a las variaciones en la apariencia de estos originadas por movimiento. Este
metodo permite remover los objetos fantasmas producidos por el cambio de fondo de la
escena. Sin embargo, no es robusto ante camuflaje y reflexion de la luz. La aplicacion
del metodo busca un balance entre la velocidad a la cual el modelo se adapta a los
cambios en el fondo y la estabilidad del mismo, por lo que se evita olvidar el fondo que
11
12 CAPITULO 2. MARCO TEORICO
esta temporalmente ocluido. Por esta razon se eligio este metodo para modelar el fondo
de la escena.
2.1.1. Descripcion de las caracterısticas del modelo
El metodo propuesto por [YO07] analiza las caracterısticas de color y textura de las
imagenes de una secuencia para construir y mantener una representacion estadıstica de
la escena en cada instante de tiempo.
El metodo utiliza el operador LBP (Local Binary Pattern) como una medida in-
variante de textura para imagenes en escala de grises. El operador LBP consiste en
el etiquetado de un pıxel x en una imagen I mediante una funcion de umbralizacion
entre la diferencia del valor de intensidad del pıxel y el valor de cada pıxel vecino. Este
operador se representa como:
LBPP,R(x) = {LBP(p)P,R(x)}p=1,...,P
LBP(p)P,R(x) = s(Ig(vp)− Ig(x)− n)
s(x) =
1 x ≥ 0
0 x < 0
(2.1)
donde Ig denota el valor de intensidad en la escala de grises en la imagen I y {vp}p=1,...,P
es el conjunto de P pıxeles igualmente espaciados localizados dentro de un cırculo con
radio R y centro x. El parametro n es un parametro de ruido que hace que el operador
LBP sea mas estable en las areas uniformes, pues describe la mınima cantidad de
variacion del valor de intensidad que es considerada como significativa.
El operador LBP es robusto a cambios en el valor de intensidad de los pıxeles
ocasionados por un cambio global o local en la iluminacion. El uso de este operador en
el modelado del fondo permite afrontar el problema de las sombras de los objetos en el
escenario. Sin embargo, el operador LBP no permite diferenciar entre los objetos del
primer plano y el fondo de la escena cuando estos comparten la misma informacion de
textura. Para contrarrestar esta limitante, el metodo utiliza las caracterısticas de color
2.1. MODELADO ADAPTATIVO DEL FONDO 13
(IR, IG, IB) que representan el valor de intensidad de los pıxeles de la imagen I en el
espacio de color RGB.
El modelo del fondo de la escena es representado por K capas independientes, donde
cada capa representa la moda mk aprendida para modelar la apariencia que puede
adoptar cada pıxel a partir de los datos observados hasta el fotograma actual. La moda
mk consiste de 7 componentes
mk = {Ik, Ik, Ik, LPBk, wk, wk, Lk} (2.2)
donde Ik = (IRk , IGk , I
Bk ) es el vector promedio en RGB de la moda. Ik e Ik son los vectores
maximo y mınimo, en RGB, que el pıxel asociado con la moda puede adquirir. LPBk
es el promedio del operador LBP aprendido a partir de todos los descriptores LBP
asignados a la misma moda. wk ∈ [0, 1] es un factor de peso que indica la probabilidad
de que la moda pertenezca al fondo. wk representa el valor maximo adquirido por el
peso en el pasado. Lk es el numero de capa a la que pertenece la moda. Cuando este
numero es cero, significa que la moda no es confiable para el modelado del fondo.
2.1.2. Algoritmo de modelado del fondo con multiples capas
El modelado del fondo mediante multiples capas facilita la deteccion de los objetos
que contrastan con todos los fondos aprendidos a partir de las observaciones del pasado;
y permite que el fondo se adapte a cambios en la escena producidos por la insercion y
eliminacion de objetos estacionarios.
A continuacion se describen los pasos del algoritmo propuesto por [YO07] para
modelar el fondo de la escena.
Paso 1 Busqueda de la moda mas cercana
Dadas las caracterısticas LBP t y RGBt obtenidas en la imagen I t en el instante
de tiempo actual t, se calcula la distancia entre estas caracterısticas y los datos
de cada moda mt−1k del modelo del fondo.
14 CAPITULO 2. MARCO TEORICO
Paso 2 Actualizacion de modas
Si la distancia de la moda mas cercana k es mayor que un umbral establecido, se
crea una nueva moda con parametros
mk = {I t, I t, I t, LBP t, winit, winit, 0} (2.3)
donde winit denota un valor muy pequeno para el peso inicial de la moda. Esta
nueva moda se agrega a la lista de modas si Kt−1 < K, o remplaza la moda
existente con el peso mas pequeno si Kt−1 = K.
De lo contrario, si la moda mas cercana k esta lo suficientemente cerca de los
datos observados, la moda mk se actualiza de la siguiente manera:
mk
I tk
= (1− α)I t−1
k+ αI t
LBP tk
= (1− α)LBP t−1
k+ αLBP t
k
I tk
= max(I t, (1− β)I t−1
k)
I tk
= mın(I t, (1 + β)I t−1
k)
wtk
= (1− γiw)w
t−1
k+ γi
w
wtk
= max(wt−1
k, wt
k)
L = 1 +max{Lt−1k }k=1,...,Kt−1,k =k,
si Lt−1
k= 0 y wt
k> Tbw
(2.4)
El resto de modas conserva sus atributos intactos, excepto el atributo de peso que
decrece de acuerdo con wtk = (1− γd
w)wt−1k .
En las expresiones anteriores, el parametro α ∈ (0, 1) es una tasa de aprendizaje
que controla la actualizacion de la informacion de color y textura. El parametro
β ∈ [0, 1) es una tasa de aprendizaje que evita que los valores maximos o mıni-
mos de los valores de intensidad continuen incrementandose o decrementandose
durante el tiempo. El parametro γiw ∈ (0, 1) es el factor creciente de peso que con-
2.1. MODELADO ADAPTATIVO DEL FONDO 15
trola la actualizacion del atributo de peso. El parametro γdw ∈ (0, 1) es el factor
decreciente de peso que controla la actualizacion del atributo de peso. El umbral
Tbw es utilizado para verificar si la moda actualizada es confiable para el modelado
del fondo.
La figura 2.1 ilustra el resultado de la deteccion de regiones en movimiento obtenido
para una imagen de prueba a partir del metodo de modelado de fondo adaptativo
propuesto por [YO07].
Figura 2.1: Resultado de la deteccion de regiones en movimiento a partir del metodode modelado de fondo adaptativo propuesto por [YO07].La figura 2.1(a) presenta una imagen con personas en movimiento en el instante detiempo actual de una secuencia. La figura 2.1(b) muestra el modelo del fondo de laescena aprendido a partir de las observaciones del pasado. La figura 2.1(c) presenta elmapa de distancia entre la apariencia de la imagen actual y el modelo del fondo. Lafigura 2.1(d) muestra la deteccion de las regiones en movimiento de la imagen obtenidaspor el metodo de umbralizacion a partir del mapa de distancia. Note que la sombra delas personas en la escena no forma parte de las regiones en movimiento detectadas.
16 CAPITULO 2. MARCO TEORICO
2.2. Deteccion de objetos mediante bases activas
En esta tesis las personas son detectadas a partir del modelo deformable de su silueta
representado por una base activa. Este modelo es tolerante a oclusiones parciales y
cambios en la silueta percibida de las personas. Esta representacion es adoptada en el
esquema de deteccion de personas propuesto (ver apartado 4.1) porque es tolerante a los
cambios de forma de la silueta de las personas. Ademas, no requiere de la fragmentacion
de las partes del cuerpo humano para hacer frente a las oclusiones parciales.
2.2.1. Representacion de bases activas
Una base activa1 consiste en un numero pequeno de elementos de wavelets de Gabor
en ubicaciones y orientaciones seleccionadas [WSGZ10]. Estos elementos tienen permi-
tido cambiar ligeramente sus ubicaciones y orientaciones antes de que sean linealmente
combinados para generar un modelo observado. La figura 2.2 ilustra la idea basica de
la representacion con bases activas. La mitad inferior muestra una base activa, donde
cada elemento es ilustrado por una elipse estrecha en una posicion y orientacion deter-
minada. La mitad superior de la figura ilustra la deformacion de un elemento de la base
activa.
Formalmente, el filtro de Gabor esta definido como:
G(x, y) = e−( xσx
)2+(yσy
)2
2 eix, donde σx < σy(2.5)
G(x, y) puede ser trasladado, rotado y dilatado para obtener un elemento de wavelets
de Gabor expresado como:
Bx,y,s,α(x′, y′) = G
xs, ys
s2
x = (x′ − x) cosα + (y′ − y) sinα
y = (x′ − x) sinα+ (y′ − y) cosα
(2.6)
1active basis, en ingles.
2.2. DETECCION DE OBJETOS MEDIANTE BASES ACTIVAS 17
Figura 2.2: Representacion con bases activas [WSGZ10].Cada elemento de la base activa se ilustra por una elipse estrecha con cierta ubicaciony orientacion. La parte superior de la figura muestra las deformaciones de un elementode la base activa. Este elemento (elipse en color negro) puede cambiar a otro elementode la base activa (elipse en color azul) si es trasladado o rotado dentro de un rangolimitado.
donde (x, y) es la posicion central del filtro, s es el parametro de escala y α es el
parametro de orientacion.
Una imagen puede ser expresada mediante una base activa de la siguiente forma:
Im =n∑
i=1
cm,iBm,i + ϵm (2.7)
donde n es el numero de elementos que conforman la base activa, Bm,i son filtros de
Gabor, {cm,i, i = 1, . . . , n} son coeficientes y ϵm es el residuo de la imagen Im.
A partir de esta representacion, se plantea seleccionar un conjunto de filtros Bi
que represente un conjunto de {Bm,i} deformados para constituir el modelo del objeto,
mientras se considera que el fondo de la imagen queda representado en el residuo ϵm.
18 CAPITULO 2. MARCO TEORICO
2.2.2. Algoritmo de bosquejo compartido
Dado un conjunto de imagenes de entrenamiento {Im,m = 1, . . . ,M}, el algoritmo
de bosquejo compartido2 [WSGZ10] secuencialmente selecciona Bi y la deforma Bm,i ≈
Bi para ajustarla en cada imagen Im. La idea esencial es seleccionar Bi de manera que
sus versiones deformadas {Bm,i,m = 1, ...,M} delineen tantos segmentos de borde como
sea posible en las imagenes de entrenamiento {Im}. Para este proposito, se supone que
se conoce la distribucion q(Im) del fondo de las imagenes y que los filtros seleccionados
no se traslapan entre sı. Para elegir los elementos Bi de la base activa B, se maximiza
la distancia entre las distribuciones q(Im) y p(Im|B). La figura 2.3 ejemplifica esta
descripcion.
A continuacion se describen los pasos del algoritmo de bosquejo compartido pro-
puesto por [WSGZ10].
Paso 1 Convolucion
Se obtienen las respuestas de los filtros de Gabor en las diferentes orientaciones
α en todas las imagenes de entrenamiento.
Paso 2 Maximizacion local
Se busca la mayor respuesta de los filtros en cada pıxel de la imagen con respecto
a la vecindad de dicho pıxel para obtener Bi ≈ Bm,i. De este modo, se le permite
al modelo un cierto grado de deformacion.
Paso 3 Seleccion
Se selecciona el elemento Bi cuya suma de las respuestas a los filtros en todas las
imagenes sea mayor. Este paso elige el elemento de la base activa que representa
un borde destacado del objeto.
Paso 4 Supresion
Se eliminan las respuestas de los filtros en todas las imagenes cuya correlacion
2shared sketch, en ingles.
2.2. DETECCION DE OBJETOS MEDIANTE BASES ACTIVAS 19
Figura 2.3: Algoritmo de bosquejo compartido [WSGZ10].Un elemento seleccionado (elipse de color) es compartido por todas las imagenes deentrenamiento que contienen al objeto a modelar (imagenes con ciervos). Para cadaimagen, una version deformada del elemento busca bosquejar un segmento de borde delobjeto cercano al elemento seleccionado. Los elementos de la base activa se seleccionanen orden de acuerdo con la divergencia de Kullback-Leibler entre las distribuciones pide las respuestas de los filtros de Gabor aplicados en las imagenes de entrenamiento(curvas continuas en color) y la distribucion q de las respuestas de estos filtros en lasimagenes que modelan el fondo de la escena (curva discontinua en negro). El orden deseleccion favorece al elemento cuya distribucion pi se aleja mas de la distribucion dereferencia q. Este orden determina que elementos se ajustan en mayor cantidad a lossegmentos de borde de las imagenes de entrenamiento.
con el elemento seleccionado Bi sea mayor que cero. Esto se realiza para asegurar
la independencia entre las distribuciones de las respuestas de los filtros.
Paso 5 Repetir el algoritmo desde el paso 2 hasta que los n elementos que conforman
la plantilla B hayan sido seleccionados.
20 CAPITULO 2. MARCO TEORICO
2.2.3. Arquitectura de inferencia de mapas SUM-MAX
Dada una imagen de prueba I, el modelo del objeto B representado por los elementos
Bi ≈ Bxi,yi,si,αipuede ser usado para detectar el objeto en la imagen y hacer un bosquejo
del objeto encontrado. Para realizar el ajuste del modelo en la imagen se requiere
encontrar la posicion de los elementos Bi. Esto se logra encontrando los parametros
espaciales en el pıxel de la imagen en donde se maximice la verosimilitud de P (I|B).
La ecuacion 2.8 representa la medida de ajuste.
MATCH(I, B) =n∑
i=1
λi⟨I, Bi⟩ − logZ(λi) (2.8)
donde ⟨I, Bi⟩ es la respuesta al filtro Bi en la imagen I, λi puede ser calculada a partir
de∑n
m=1⟨Im, Bm,i⟩ en el paso de seleccion del algoritmo de bosquejo compartido y Z es
una funcion no lineal.
La figura 2.4 muestra graficamente el algoritmo de inferencia de mapas SUM-MAX
que encuentra el modelo del objeto B en la imagen de prueba I. El algoritmo construye
tres mapas: SUM1, MAX1 y SUM2. El mapa SUM1 contiene las respuestas de los filtros
de Gabor, el mapa MAX1 contiene los maximos locales de las respuestas en cada pıxel
y el mapa SUM2 representa el ajuste del modelo en la imagen obtenido por la ecuacion
2.8.
A continuacion se describen los pasos del algoritmo de mapas SUM-MAX propuesto
por [WSGZ10].
Paso 1 Obtencion del mapa SUM1 (Convolucion)
Se obtienen las respuestas de los filtros de Gabor en las diferentes orientaciones
α en la imagen de prueba.
Paso 2 Obtencion del mapa MAX1 (Maximizacion local)
Se busca la mayor respuesta de los filtros en cada pıxel de la imagen con respecto
a la vecindad de dicho pıxel para obtener Bi ≈ Bm,i.
2.2. DETECCION DE OBJETOS MEDIANTE BASES ACTIVAS 21
Figura 2.4: Algoritmo de mapas SUM-MAX [WSGZ10].Los mapas SUM1 se obtienen mediante la convolucion de la imagen de entrada con losfiltros de Gabor en todas las ubicaciones y orientaciones. Las elipses en los mapas SUM1ilustran la operacion de suma o filtrado local. Los mapas MAX1 se obtienen mediantela aplicacion de un operador de maximizacion local a los mapas SUM1. Las flechas enlos mapas MAX1 ilustran las deformaciones sobre las cuales se obtiene la maximizacionlocal. Los mapas SUM2 se calculan mediante la aplicacion de un operador de suma locala los mapas MAX1, donde la suma se realiza sobre los elementos de la base activa. Estaoperacion calcula el logaritmo de la verosimilitud del modelo deformable y se puedeinterpretar como un filtro de forma.
22 CAPITULO 2. MARCO TEORICO
Paso 3 Obtencion del mapa SUM2 (Filtro de forma)
Se obtiene el valor del logaritmo de la verosimilitud de la plantilla en cada posicion
del mapa MAX1 para representar que tan bien se ajusta el modelo en la imagen.
A partir de este mapa, se puede obtener el mejor ajuste del modelo al encontrar
la posicion con mayor valor en el mapa.
El algoritmo del modelado adaptativo del fondo, el algoritmo de bosquejo compar-
tido y la arquitectura de inferencia de mapas SUM-MAX permitieron el desarrollo del
esquema de deteccion de multiples personas propuesto en esta tesis (apartado 4.1).
2.3. Problema de asociacion
Una de las mayores dificultades del seguimiento de multiples objetos radica en el
problema de la asociacion entre las mediciones de deteccion con las trayectorias de
los objetos rastreados. El problema es complejo porque comunmente el numero de
mediciones no corresponde con el numero de objetos rastreados. Ademas, el numero de
objetos es difıcil de estimar ya que estos pueden entrar y salir del campo de vision de
la escena, estar temporalmente ocluidos, o ser un falso negativo o un falso positivo en
las mediciones de deteccion.
La asociacion de datos busca elegir la medicion mas probable para el objeto ras-
treado. Si se selecciona la medicion incorrecta, la estimacion de su estado puede ser
danada. Los algoritmos de asociacion de datos mas comunes para el seguimiento de
multiples personas son: Nearest Neighbor (NN), Global Nearest Neighbor (GNN), Joint
Probability Data Association (JPDA) y Multiple Hypothesis Tracking (MHT) [YJS06,
HTWM04, Bla04]. Las caracterısticas de estos algoritmos se describen en el apartado
3.5.1 de la tesis. Estos metodos difieren en complejidad ası como en su habilidad para
manejar incertidumbre y ambiguedades en las asociaciones. Los algoritmos incrementan
su complejidad en este orden NN(polinomial), GNN (polinomial), JPDA (NP-hard) y
MHT (NP-hard).
2.3. PROBLEMA DE ASOCIACION 23
En esta tesis la asociacion de datos se formula mediante un algoritmo GNN como un
problema de optimizacion en el que una funcion objetivo tiene que ser minimizada (ver
apartado 2.3.1). El metodo Hungaro plantea una solucion a este problema en tiempo
polinomial de grado cubico (ver apartado 2.3.2).
2.3.1. Formulacion del problema
El problema de asociacion consiste en crear parejas entre los elementos de un con-
junto A y un conjunto B con igual numero de elementos, minimizando el costo total de
la asignacion3.
El problema de asociacion puede representarse mediante un grafo bipartito. Los
vertices del grafo pueden ser particionados en dos conjuntos disjuntos A y B. Las
aristas del grafo solo pueden conectar vertices del conjunto A con vertices del conjunto
B. Las aristas tienen un peso asociado cij que representa el costo de que al elemento
i ∈ A se le asigne el elemento j ∈ B. La figura 2.5 describe graficamente este problema.
Figura 2.5: Representacion del problema de asociacion mediante un grafo bipartito.
3En esta tesis, A representa a las personas que estan siendo rastreadas y B a las mediciones dedeteccion. Si los conjuntos A y B tienen tamano distinto, se agregan elementos al conjunto con menortamano y se asigna un mayor costo a la asociacion de estos elementos.
24 CAPITULO 2. MARCO TEORICO
El problema puede formularse en forma de una matriz de costos cij como se presenta
en la figura 2.6:
conjunto B
conjunto
A
1 2 · · · j · · · n1 c11 c12 · · · c1j · · · c1n2 c21 c22 · · · c2j · · · c2n...
...i ci1 ci2 · · · cij · · · cin...
...n cn1 cn2 · · · cnj · · · cnn
Figura 2.6: Formulacion del problema de asociacion mediante una matriz de costos.
Vamos a denotar la asignacion del elemento i ∈ A con el elemento j ∈ B como xij,
tal que:
xij =
1 si elemento i ∈ A puede asociarse con el elemento j ∈ B
0 en caso contrario
(2.9)
Vamos a expresar el problema de asignacion como un problema de programacion
lineal mediante la funcion objetivo:
Minimizar z =n∑
i=1
n∑j=1
cijxij (2.10)
sujeto a las restricciones:
∑nj=1 xij = 1 ∀i ∈ {1, 2, . . . n} (1)∑ni=1 xij = 1 ∀j ∈ {1, 2, . . . n} (2)
xij ∈ {0, 1} ∀i, j ∈ {1, 2, . . . n} (3)
(2.11)
Las restricciones 1 y 3 significan que a cada elemento del conjunto A se le asigna
un elemento del conjunto B diferente. Esto significa, en la matriz de costos, que a cada
2.3. PROBLEMA DE ASOCIACION 25
fila se le asigna un costo de diferente columna.
Las restricciones 2 y 3 significan que cada elemento del conjunto B debe ser asignado
a diferentes elementos del conjunto A. Esto significa, en la matriz de costos, que a cada
columna se le asigna un peso de diferente fila.
2.3.2. Algoritmo Hungaro
El algoritmo Hungaro, publicado por Kuhn en 1955 [Kuh05] y mejorado por Mun-
kres en 1957 [Mun57], propone un algoritmo de asociacion de peso maximo para grafos
ponderados, bipartitos y completos. El algoritmo plantea una solucion optima al pro-
blema de asignacion en tiempo polinomial (O(n3)).
A continuacion se describen los pasos de este algoritmo.
Paso 1 Obtencion de ceros
Encontrar el costo mınimo en cada fila de la matriz de costos y restarlo a todos
los elementos del mismo renglon. Luego, encontrar el elemento mas pequeno en
cada columna y restarlo a todos los elementos de la misma columna. La matriz
obtenida sera conocida como matriz de costos reducida.
Paso 2 Busqueda de una solucion optima
Trazar el numero mınimo de lıneas horizontales y/o verticales que se requieren
para cubrir todos los ceros de la matriz de costos reducida. Si el numero de lıneas
es igual a la dimension de la matriz, entonces el algoritmo encontro una solucion
optima al problema. En este caso, terminar el algoritmo. De lo contrario, continuar
con el paso 3.
Paso 3 Obtencion y desplazamiento de ceros
Encontrar el elemento con menor valor en la matriz de costos reducida que no
este cubierto por las lıneas trazadas en el paso previo. Restar este costo en cada
elemento no cubierto de la matriz y sumar este costo en los elementos de la matriz
en donde se intersecten dos lıneas. Regresar al paso 2.
26 CAPITULO 2. MARCO TEORICO
El algoritmo Hungaro es utilizado por el metodo de asociacion por similitud propues-
to en la tesis para vincular las trayectorias de las personas que estan siendo rastreadas
con las mediciones de las personas detectadas (apartado 4.3.5).
2.4. Resumen
En este capıtulo se describieron los fundamentos teoricos utilizados en esta tesis.
En la seccion 2.1 se presento un metodo para modelar el fondo de la escena, el cual
esta basado en caracterısticas de color y textura. Este metodo permite la adaptacion
del modelo de fondo a cambios en iluminacion, movimiento de objetos, e insercion y
eliminacion de objetos estacionarios de larga duracion. En la seccion 2.2 se presentaron
algoritmos para construir el modelo de la silueta de la persona basado en la representa-
cion de bases activas y para encontrar este modelo en una imagen. Estos algoritmos son
utilizados por el esquema de deteccion de multiples personas propuesto en el apartado
4.1 de esta tesis. En la seccion 2.3 se formulo el problema de asociacion como un proble-
ma de optimizacion. En el apartado 4.3.5 de esta tesis se propone un metodo GNN de
asociacion por similitud para vincular las trayectorias de las personas que estan siendo
rastreadas con las mediciones de las personas detectadas.
El capıtulo 3 de la tesis presenta el trabajo previo desarrollado en la literatura.
Especıficamente, describe distintos enfoques de seguimiento y sus ventajas y desventajas
al ser aplicados en el seguimiento de multiples personas. Como nuestra investigacion se
centro en abordar el problema de oclusion, los enfoques expuestos hacen referencia a
como el trabajo previo ha abordado este problema a partir de distintos enfoques.
Capıtulo 3
Revision del trabajo previo
En este trabajo de investigacion se estudia el problema de oclusion en el seguimiento
de multiples personas utilizando una camara estacionaria. En el presente capıtulo se
exponen los principales trabajos previos que proponen estrategias para tratar el proble-
ma de la oclusion en el seguimiento de multiples objetos. Los metodos propuestos han
seguido diversos enfoques. Las ventajas y las desventajas de estos enfoques ası como
las diferencias con nuestro trabajo se describen a lo largo del capıtulo.
3.1. Introduccion al problema de seguimiento de
personas con oclusion
El proceso de seguimiento se compone de dos etapas:
1. La etapa de deteccion y representacion, en la cual se distinguen a las personas del
fondo en las imagenes de la secuencia y se obtienen las caracterısticas y propie-
dades que las describen; y
2. La etapa de asociacion temporal, la cual se apoya en la representacion de las
personas detectadas para relacionar de manera coherente las personas presentes
en el fotograma actual con las existentes en fotogramas previos.
27
28 CAPITULO 3. REVISION DEL TRABAJO PREVIO
Cuando las personas se encuentran espacialmente separadas en la escena y son
facilmente distinguibles unas de otras, el proceso de seguimiento puede resolverse facil-
mente mediante la ejecucion de multiples rastreadores independientes [WPZZ10], tales
como: bounding-box tracker [SHT+06], hybrid appearance-guided particle filter [ZTJ07],
y CamShift guided particle filter [WYXY09]. Sin embargo, en escenarios con aplica-
ciones reales, el proceso de seguimiento se dificulta al afrontar problemas producidos
tanto por la complejidad del movimiento de las personas y las condiciones variables del
ambiente, como por las interacciones y oclusiones frecuentes entre los individuos.
La oclusion, incluso manifestada parcialmente, es el problema que mas perjudica
al proceso de seguimiento de multiples personas. La oclusion puede inducir a errores
como la fragmentacion de la trayectoria de los objetos rastreados y el intercambio
de sus identidades. En este contexto, es deseable que los algoritmos de seguimiento
mantengan la identidad de las personas y una aproximacion razonable de su ubicacion
durante los eventos de oclusion. De este modo se podra determinar que el individuo
no esta temporalmente perdido y se podra continuar su seguimiento cuando el evento
termine.
3.2. Seguimiento con multiples camaras
Un enfoque comunmente adoptado por los trabajos de la literatura para afrontar el
problema de oclusion consiste en colocar multiples camaras en distintos angulos. En una
configuracion de multiples vistas, la ubicacion de los objetos ocluidos en una vista se
determina con base en la informacion disponible en las otras vistas. Por ejemplo, Khan
y Shan [KS09] proponen la creacion de una rejilla de ocupacion utilizando transforma-
ciones homograficas para localizar a las personas en el plano del suelo. El seguimiento
se lleva a cabo mediante la minimizacion de una funcion de energıa que combina la
informacion de la rejilla de ocupacion e informacion espacio-temporal de la cercanıa
de los objetos. Munoz Salinas et al. [MSMCMCCP09] presentan una extension de los
filtros de partıculas para la teorıa de evidencia Dempster-Shafer. Con la finalidad de
3.3. SEGUIMIENTO CON UNA CAMARA 29
detectar oclusiones entre los objetos, el trabajo propone calcular un mapa de ocupacion
para cada camara empleando un esquema de ordenamiento por profundidad. La evi-
dencia de las personas visibles reunida por todas las camaras es fusionada para obtener
la mejor estimacion de la ubicacion de los objetos. Kaucic et al. [KPB+05] proponen
un metodo para unir fragmentos de trayectorias entre brechas de sensores mediante
el agrupamiento espacial de pares cercanos de fragmentos con atributos similares de
apariencia y movimiento.
Aunque una configuracion de multiples vistas reduce el grado de oclusion, no resuelve
este problema en escenarios donde existe una gran cantidad de oclusiones causadas por
la interaccion de multiples personas. El trabajo de [RNCS09] aprueba esta afirmacion
y propone un metodo para la colocacion estrategica de las camaras que minimiza las
oclusiones presentadas en los sistemas de seguimiento de objetos.
3.3. Seguimiento con una camara
En esta tesis, el problema de oclusion de multiples personas es afrontado con una
sola camara. En esta configuracion, dos distintos enfoques de seguimiento, el colectivo
y el individual, han sido aplicados.
3.3.1. Seguimiento colectivo
El seguimiento colectivo consiste en agrupar objetos cuando inicia un evento de
oclusion parcial, seguirlos en conjunto mientras el evento persiste y separarlos cuando
este finaliza. Para lograr este objetivo se debe conocer cuantos y cuales objetos parti-
cipan en el evento. El problema se presenta cuando la oclusion concluye, pues se debe
identificar el subconjunto que abandona al grupo. Si el problema se resuelve y se res-
tablecen correctamente las entidades involucradas al finalizar la oclusion, entonces es
posible la estimacion de la trayectoria de los objetos rastreados a lo largo de la duracion
del evento.
30 CAPITULO 3. REVISION DEL TRABAJO PREVIO
Existen diferentes atributos como color, textura, forma y velocidad, que han si-
do utilizados para restablecer la identidad de los individuos que abandonan el grupo
[GVPG03]. La ubicacion de los objetos en el grupo puede obtenerse de manera indirecta
mediante la interpolacion de las posiciones de los objetos detectados antes y despues de
la oclusion, como propone [FV06]. Sin embargo, este modo de ubicacion solo funciona
correctamente cuando los atributos de los objetos son distintos.
Existen situaciones en donde la interaccion de las personas dificulta la distincion
de la identidades de los objetos durante los eventos de oclusion. Estos casos requieren
de estrategias de solucion analıticas que determinen el inicio y el fin de una oclusion,
restrinjan el etiquetado de las personas en el grupo con oclusion, y permitan la deduccion
de su ubicacion.
Por ejemplo, el trabajo de [SNC09] propone un algoritmo de seguimiento colectivo
para rastrear individuos con apariencias indistintas en aplicaciones de futbol soccer. El
algoritmo requiere de un grafo de seguimiento que describa las interacciones (mezclas y
separaciones) entre las personas durante la secuencia. El algoritmo analiza el grafo de
seguimiento y la medicion de la similitud del modelo de color y patrones de pose de los
objetos. Luego infiere la configuracion mas probable de las trayectorias seguidas por los
individuos utilizando una red de inferencia bayesiana.
De manera similar, el metodo de [AA06] construye un grafo de seguimiento para
el rastreo de objetos rıgidos con apariencia distinta. El grafo modela informacion de
la visibilidad de los objetos y de sus agrupaciones. El analisis del grafo de seguimiento
proporciona, ademas de la estimacion de las trayectorias de los objetos, un razonamiento
del ordenamiento de los objetos que se estan ocluyendo.
En esta tesis se propone un algoritmo de asociacion temporal que, mediante la
construccion de un grafo de seguimiento, permite llevar a cabo el rastreo de personas
ante falsos positivos y falsos negativos en las mediciones de deteccion, y en presencia de
oclusiones parciales y totales. El grafo es construido a partir de mediciones de deteccion
y de reglas de interaccion que modelan los atributos de apariencia, forma y movimiento
de las personas a lo largo de su seguimiento. A diferencia de los trabajos de [SNC09] y
3.3. SEGUIMIENTO CON UNA CAMARA 31
[AA06], nuestro metodo no modela las mezclas y las separaciones entre los objetos para
seguir colectivamente a las personas durante las oclusiones, sino que realiza el rastreo de
personas individualmente modelando en el grafo los atributos de estas y su asociacion
por similitud.
3.3.2. Seguimiento individual
El seguimiento individual efectua el rastreo de cada individuo que participa en la
oclusion de manera independiente. Este enfoque no permite la formacion de entidades
grupales. Sin embargo, el enfoque requiere distinguir a los objetos involucrados en la
oclusion tan pronto como esta sea detectada y durante el tiempo que esta persista.
El trabajo previo incluye metodos de clasificacion para distinguir a los objetos invo-
lucrados en el evento de oclusion. Comunmente, la clasificacion de los pıxeles se efectua
mediante la evaluacion de una funcion de similitud entre el modelo a priori de la apa-
riencia de cada persona y la apariencia de los pıxeles que se disputan durante la oclusion
[KS00, ED01, SHT+02, HHT04, HZHM09, ZZS08].
Una caracterıstica particularmente util que puede ser utilizada en este enfoque es la
profundidad relativa entre los objetos ocluidos. En configuraciones de una sola camara,
la profundidad ha sido obtenida evaluando diferentes hipotesis con respecto al orde-
namiento espacial de las personas [ED01]. Tambien, se ha determinado el orden de
los objetos durante la oclusion mediante la valoracion de la proporcion de pıxeles en
disputa que son asignados a cada objeto, de modo que los objetos que reciben en me-
nor proporcion los pıxeles en disputa tienen mayor profundidad [SHT+02]. Incluso se
han combinado las caracterısticas de similitud de apariencia y forma de la silueta de
las personas que se ocluyen para inferir la ubicacion de las personas mediante la mejor
combinacion de siluetas [YCHC10]. En esta tesis se propone una estrategia para ordenar
los objetos involucrados en eventos de oclusion, la cual esta apoyada en las relaciones de
la interaccion de las personas y en sus modelos de apariencia, forma y movimiento. Esta
estrategia facilita la distincion de las identidades de las personas mientras el evento de
32 CAPITULO 3. REVISION DEL TRABAJO PREVIO
oclusion perdure.
A diferencia de los trabajos de [ED01], [SHT+02] y [YCHC10], la estrategia propues-
ta en esta tesis para ordenar a los objetos participantes en una oclusion considera la
alineacion global de sus modelos de forma, su visibilidad en la imagen y su ordenamiento
previo.
En este trabajo de investigacion, el seguimiento de multiples personas se realiza
de manera individual utilizando una sola camara. En esta configuracion, el problema
de oclusion se ha abordado desde dos perspectivas distintas: 1) mejorando la etapa
de deteccion y representacion y 2) fortaleciendo la etapa de asociacion temporal. Las
secciones 3.4 y 3.5 presentan los metodos propuestos en el trabajo previo en cada etapa
del proceso de seguimiento.
3.4. Enfoques de deteccion y representacion
La deteccion de personas se ha realizado de 3 maneras: 1) encontrando un conjunto
de atributos que describen de manera explıcita a las personas que estan siendo busca-
das en la imagen, por ejemplo: color [ED01], textura [ZZS08] o puntos caracterısticos
[ARS08]; 2) empleando modelos morfologicos del cuerpo humano o de sus partes que
puedan ajustarse a los contornos extraıdos en la imagen [LD10]; y 3) caracterizando
algoritmos de aprendizaje automatico para que reconozcan de manera implıcita patro-
nes sobresalientes de las personas mediante el entrenamiento con ejemplos positivos y
negativos [WN07, WN09].
La representacion de las personas se ha efectuado utilizando caracterısticas locales
o distintos tipos de atributos, como geometricos, temporales y de apariencia.
Algunos trabajos han utilizado caracterısticas locales como: SIFT-Scale Invariant
Feature Transform [ZYS09] y Haar [BELR10] en la representacion de los objetos. Sin
embargo, esta representacion solo es efectiva cuando los objetos tienen suficientes carac-
terısticas locales sobresalientes, puesto que los cambios de pose y las oclusiones de los
objetos pueden resultar en la ausencia de una proporcion significativa de caracterısticas
3.4. ENFOQUES DE DETECCION Y REPRESENTACION 33
locales irremplazables. En nuestro caso de estudio, correspondiente al seguimiento de
multiples personas en escenarios no controlados, no se recomienda el uso de este tipo
de atributos en la representacion de los objetos, ya que es difıcil extraer suficientes
caracterısticas locales para compensar el efecto negativo provocado por la oclusion y la
falta de rigidez de los objetos.
La representacion del individuo mediante atributos geometricos (como la posicion
y el tamano) y temporales (como la velocidad y direccion) se ha usado comunmente
en enfoques de seguimiento basados en movimiento [YJS06]. Esta representacion puede
ser aplicada con exito en situaciones que suponen movimientos suaves en la trayectoria
de las personas y en entornos donde no surgen oclusiones entre individuos con tamano
o direccion de su trayectoria similares. Por otro lado, la representacion de personas
mediante atributos de apariencia permite diferenciar a las personas con base en su
intensidad de color o textura y son robustos a oclusiones parciales [ED01, HHT04,
YJS06, HZHM09, ZZS08]. Sin embargo, esta representacion no permite la distincion de
objetivos con aspecto similar durante un evento de oclusion total.
Con el fin de contrarrestar las limitaciones que tiene cada tipo de representacion,
trabajos previos han utilizado multiples atributos para representar a las personas, por
ejemplo [HHT04, HZHM09, ZZS08, LD10, WN07, WN09]. De igual manera, en esta
tesis las personas son representadas mediante atributos que describen su apariencia,
forma y movimiento.
A continuacion se presenta una descripcion de los trabajos relevantes de la literatura
que enfrentan al problema de oclusion parcial provocada por la interaccion de personas
usando metodos robustos aplicados en la deteccion y/o representacion de las personas.
Elgammal y Davis [ED01] construyen un modelo a priori de la apariencia de las
personas en pose vertical, compuesto por la distribucion de color y la distribucion
espacial de la cabeza, torso y piernas. En el algoritmo propuesto, cuando se agrupan dos
candidatos, cada pıxel en el grupo formado es asignado a uno de sus elementos buscando
un ordenamiento que maximice la verosimilitud de la apariencia del grupo dados los
modelos construidos para los individuos. El resultado es la segmentacion de la silueta de
34 CAPITULO 3. REVISION DEL TRABAJO PREVIO
cada persona en el grupo. Las siluetas segmentadas son utilizadas posteriormente para
determinar la profundidad relativa de cada individuo mediante la evaluacion de distintas
hipotesis acerca del ordenamiento de las personas en el grupo. Estas regiones tambien
permiten la construccion de un modelo de oclusion que es usado para segmentar de
manera probabilista las siluetas de las personas ocluidas en los fotogramas subsecuentes.
Algunas mejoras han sido realizadas a este algoritmo. Por ejemplo, Hu et al. [HHT04]
simplifican el modelo de la persona para reducir su costo computacional, planteandolo
como un problema de localizacion y resolviendo el problema de seguimiento utilizando
una red bayesiana con relaciones de oclusion. Posteriormente, Hu et al. [HZHM09]
formulan matematicamente el modelo de oclusion para multiples personas y proponen
una funcion de verosimilitud para deducir la relacion de oclusion entre las personas.
Ambos metodos se basan en el modelo a priori de la apariencia de la persona y en
suposiciones de pose de pie. La principal limitante en estos trabajos radica en que
suponen que la cabeza de las personas siempre esta visible por ser considerada origen
de la distribucion espacial y que los movimientos de las personas son suaves entre
fotogramas consecutivos. A diferencia de [ED01], [HHT04] y [HZHM09], para detectar la
oclusion entre objetos y determinar el ordenamiento de estos, nuestro trabajo considera
la alineacion global de la prediccion de sus modelos de forma, la visibilidad de estos
objetos en la imagen y su ordenamiento previo.
Senior et al. [SHT+06] utilizan modelos de apariencia y mapas probabilistas para
localizar regiones correspondientes a personas y vehıculos parcialmente superpuestos.
Del mismo modo, Vezzani et al. [VGC11] proponen un enfoque probabilista basado en
apariencia que permite la estimacion de la forma de cada persona durante las oclusiones
mediante la separacion de pıxeles.
Zhu et al. [ZZS08] proponen un algoritmo de clasificacion basado en caracterısticas
locales de color y textura, y caracterısticas espaciales relativas al centro de los objetos
para distinguirlos durante un evento de oclusion. A diferencia de los trabajos mencio-
nados previamente, este algoritmo no requiere del modelo a priori de la persona, una
pose especıfica o movimientos suaves entre fotogramas consecutivos, ni esta restringido
3.4. ENFOQUES DE DETECCION Y REPRESENTACION 35
a una clase de objetos. En cambio, el algoritmo requiere obtener de forma simultanea
ejemplos de entrenamiento de cada objeto antes de presenciar el evento de oclusion para
obtener las caracterısticas que permitan distinguirlos durante la oclusion. Aunque este
algoritmo puede enfrentar el problema de oclusion parcial, no es capaz de distinguir
entre objetivos con apariencia similar.
Los metodos mencionados previamente proponen soluciones al problema de oclu-
sion en escenarios en donde existen interacciones unicamente entre dos individuos, con
aspectos distintos y en situaciones donde no existen cambios abruptos en la direccion
de las trayectorias de las personas ocluidas. Estos metodos son vulnerables a errores de
clasificacion para objetos del mismo color durante las interacciones de los objetos.
Dalal y Triggs [DT05] describen un metodo para la deteccion de personas utilizando
el descriptor HOG (Histogram of Oriented Gradient) y un clasificador lineal basado en
SVM (Support Vector Machine). Este metodo fue disenado para detectar a personas en
posicion vertical. El metodo permite la deteccion de personas en una amplia variedad
de poses y con oclusiones parciales ligeras.
Mendez et al. 2010 [MPMMMM10] proponen un algoritmo para detectar personas
en ambientes de interiores dinamicos mediante la fusion de caracterısticas fısicas y mor-
fologicas provenientes de distintos sensores. El algoritmo utiliza un modelo geometrico
basado en elipses que se ajustan al torso y a la cabeza de la persona. Este algoritmo
esta limitado a la deteccion de un numero reducido de personas que se encuentren a
una distancia establecida.
Wu y Nevatia [WN07, WN09] detectan partes del cuerpo aprendidas con el metodo
de boosting empleando caracterısticas de segmentos de forma. Los detectores de par-
tes son combinados utilizando un metodo de estimacion MAP para detectar multiples
personas ocluidas parcialmente. Las respuestas de las detecciones individuales de las
partes del cuerpo y de la deteccion combinada de estas proporcionan las observaciones
utilizadas para su seguimiento. La tarea de asociacion temporal se efectua calculado la
verosimilitud de la apariencia y el modelo dinamico de cada persona. La limitante de
este trabajo es que, para dar una respuesta global a la deteccion, requiere del ordena-
36 CAPITULO 3. REVISION DEL TRABAJO PREVIO
miento espacial de respuestas locales de deteccion para fragmentos del cuerpo (cabeza,
torso y piernas). Este metodo esta restringido a detectar personas en una pose frontal.
Por el contrario, nuestro esquema de deteccion encuentra la silueta de las personas con
oclusion sin requerir de la fragmentacion de las partes del cuerpo. Ademas, permite la
deteccion de personas con oclusion en cualquier parte del cuerpo: piernas, cabeza, lado
derecho, etc.; y tolera cambios en la silueta para detectar personas vistas en poses fron-
tales y laterales. Con respecto al seguimiento, la limitante del trabajo de [WN07] es que
presenta una tasa alta de fragmentacion, pues al carecer de un modelo de interaccion
entre las personas, los atributos de estas son danados durante las oclusiones parciales.
Lin et al. [LD10] proponen un enfoque bayesiano para detectar y segmentar personas
utilizando plantillas de la silueta completa de la persona o de sus partes. El enfoque
establece una jerarquıa entre las partes del cuerpo con la finalidad de generar un mapa
de contornos que permita modelar las formas humanas de manera flexible. La deteccion
de personas se efectua al relacionar los contornos extraıdos de la imagen en la jerarquıa
de partes. Al realizar esta tarea, el enfoque determina mediante una estimacion MAP
un conjunto confiable de hipotesis correspondientes a una silueta humana especıfica.
Este enfoque permite obtener automaticamente la segmentacion y pose de una persona
mediante la relacion de las partes detectadas. Sin embargo, el enfoque presenta la
limitante de que solo es posible detectar y segmentar a personas que tienen la cabeza
y parte del torso visibles.
Andriluka et al. [ARS08] proponen un modelo de la dinamica de las extremidades
basado en hGPLVM (hierarchical Gaussian process latent variable model). Este modelo
fue utilizado para mejorar el rendimiento de la deteccion de las personas mediante la
generacion confiable de fragmentos de trayectorias en las secuencias de imagenes.
Las oclusiones parciales pueden inducir a errores en el seguimiento originando la
fragmentacion o la perdida de las trayectorias de los individuos rastreados. Algunos
trabajos han abordado este problema mediante el diseno de metodos basados en la
asociacion temporal.
3.5. ENFOQUES DE ASOCIACION TEMPORAL 37
3.5. Enfoques de asociacion temporal
Los metodos de asociacion temporal para el seguimiento de multiples objetos pueden
clasificarse en dos grupos: basados en detecciones y basados en trayectorias.
3.5.1. Metodos de asociacion basados en detecciones
Los metodos de asociacion temporal basados en deteccion tienen dos objetivos: 1)
encontrar la asociacion correcta de los datos entre los atributos de los objetos rastreados
en los fotogramas previos y las mediciones de los objetos detectados en el fotograma
actual y 2) actualizar el estado del objeto con base en su medicion asociada.
Los metodos de asociacion temporal comunmente utilizados en el seguimiento de
multiples objetos son: Nearest Neighbor (NN), Global Nearest Neighbor (GNN), Joint
Probability Data Association (JPDA) y Multiple Hypothesis Tracking (MHT) [YJS06,
HTWM04, Bla04]. A continuacion se presenta una descripcion de estos 4 metodos y sus
problemas principales.
El algoritmo GNN [Bla04] encuentra la asignacion mas probable de las mediciones
de la deteccion con las trayectorias existentes en tiempo polinomial. La asignacion
en este algoritmo se realiza considerando todas las posibles asociaciones (dentro de
una zona en particular) bajo la restriccion de que una medicion puede ser asociada
como maximo a una trayectoria. Esta caracterıstica es la que distingue al algoritmo
GNN del algoritmo NN, en el cual una trayectoria es actualizada con la medicion
mas cercana, incluso si la asignacion esta siendo utilizada por otra trayectoria [Bla04].
Los algoritmos GNN y NN son los mas utilizados en la literatura para efectuar la
asociacion de datos de multiples objetos [YJS06]. Estos algoritmos son confiables en
el seguimiento de objetos en escenarios con densidad moderada de objetos y en casos
donde el movimiento o cambio de apariencia del objeto es pequeno, fotograma por
fotograma. Sin embargo, estos algoritmos fallan a medida que aumenta la tasa de falsos
positivos y falsos negativos en las mediciones de la deteccion, se presentan oclusiones
entre objetos, hay cambios significativos en su apariencia, o cuando las maniobras de
38 CAPITULO 3. REVISION DEL TRABAJO PREVIO
los objetos se complican.
El algoritmo JPDA [BS87] proporciona una aproximacion suboptima del filtro ba-
yesiano para un numero constante de objetos. Este algoritmo enumera y calcula las
probabilidades de todas las posibles asociaciones de las mediciones a las trayectorias en
un area de validacion. Despues, suma los estimados condicionales pesados para actuali-
zar el estado del objeto. El algoritmo JPDA es confiable en el seguimiento de objetos en
ambientes con densidad moderada de objetos. Su desventaja principal es que consume
gran cantidad de costo computacional para calcular todos los pesos, puesto que su com-
plejidad es NP-hard. Ademas, por su naturaleza presenta el problema de interferencia
de objetos cercanos, ya que las mediciones de un objeto pueden influir en el estima-
do del objeto vecino. Esta influencia puede crear coalicion de objetos que se mueven
paralelamente y danar el reconocimiento del objeto o la informacion utilizada para su
discriminacion.
El algoritmo MHT [Bla04] enumera exhaustivamente todas las posibles hipotesis
sobre un numero de fotogramas recientes y elige la mas probable. En este enfoque, las
hipotesis alternativas son formadas para explicar el origen de las mediciones, pues cada
una asigna las mediciones de la deteccion como objetos o falsos positivos. Este algorit-
mo tiene la habilidad de crear y finalizar las rutas de objetos existentes en el campo
de vision, y puede continuar una ruta incluso si algunas mediciones del objeto estan
perdidas. A diferencia de los algoritmos NN, GNN y JPDA, en los que la asociacion
temporal se efectua de manera inmediata e irrevocable considerando la informacion de
las mediciones entre dos fotogramas consecutivos, el algoritmo MHT retrasa la decision
de asociacion temporal hasta adquirir informacion suficiente de las mediciones en varios
fotogramas con la finalidad de evitar asociaciones erroneas. El algoritmo MHT teorica-
mente proporciona la mejor solucion al problema, pero es costoso computacionalmente
(NP-hard). En esta tesis se propone una solucion al problema en tiempo polinomial
(O(n3), donde n es el numero de objetos rastreados).
3.5. ENFOQUES DE ASOCIACION TEMPORAL 39
3.5.2. Metodos de asociacion basados en trayectorias
Los algoritmos de asociacion de datos mencionados anteriormente, suponen rela-
ciones uno a uno entre las asignaciones de las mediciones y dependen de la precision
obtenida en la etapa de deteccion. Como esta suposicion es quebrantada cuando existen
oclusiones o falsos positivos en la deteccion de los objetos, algunos trabajos en la lite-
ratura procuran evitar los errores en el proceso de seguimiento mediante algoritmos de
asociacion temporal que optimizan las trayectorias a traves del analisis de informacion
de la secuencia completa. A continuacion se mencionan los trabajos representativos de
este enfoque.
Zhang et al. [ZLN08] define el problema de asociacion de datos como un problema
MAP. El problema es mapeado a una red de flujo de informacion que no permite
traslapes entre las trayectorias. La asociacion optima de las trayectorias se efectua
mediante un algoritmo que minimiza el costo del flujo de la red.
Yang y Nevatia [YN12] formulan el problema de seguimiento como un problema
de minimizacion de energıa y proponen un metodo con aprendizaje en lınea basado
en campos aleatorios condicionales para encontrar eficientemente buenas soluciones al
problema con bajos costos de energıa. El metodo produce las funciones de energıa del
modelo que incluyen funciones unitarias usadas para discriminar todos los objetos y
funciones de pares para diferenciar pares difıciles de fragmentos de trayectorias.
Collins [Col12] presenta un algoritmo iterativo aproximado al problema de asig-
nacion multidimensional bajo funciones de costo generales. Este algoritmo utiliza una
funcion de costo de energıa del contorno activo de la trayectoria para evaluar la calidad
de la trayectoria propuesta.
Song et al. 2010 [SJSRC10] analizan las propiedades estadısticas de los segmentos
de trayectorias para desarrollar asociaciones entre ellas de manera que puedan formar
trayectorias mas largas. Ellos proponen un metodo estocastico basado en la evolucion
de un grafo de asociacion, el cual representa a los fragmentos de trayectorias como
vertices y a los puntajes de afinidad como pesos. La asociacion se realiza estimando la
40 CAPITULO 3. REVISION DEL TRABAJO PREVIO
MAP de las conexiones entre vertices.
Brendel et al. [BAT11] plantean el problema de seguimiento de multiples objetos
como un problema del conjunto independiente de peso maximo. Ellos proponen un
metodo que construye trayectorias mas largas mediante la union iterativa de fragmentos
pequenos similares. El metodo tambien divide trayectos largos inviables hasta lograr la
convergencia.
Algunos otros trabajos que siguen el enfoque basado en trayectorias enfrentan el
problema de asociacion temporal mediante la construccion de un grafo de seguimien-
to, en donde cada vertice representa la observacion de un objeto y las aristas denotan
su trayectoria [HXTG07, LTL+09, MYC09]. Estos metodos se basan en el principio
de agregar mediciones cuando un objeto no es detectado y eliminarlas cuando corres-
pondan a falsas detecciones. La tarea de asociacion temporal es resuelta al agregar las
aristas al grafo de seguimiento utilizando algoritmos que encuentran la ruta mas cor-
ta. La limitacion de estos algoritmos es que, al plantear el problema de seguimiento de
multiples objetos como uno de asociacion multidimensional, su complejidad es NP-hard.
En nuestro trabajo, el seguimiento de multiples personas se plantea como un problema
de asociacion en 2D, por lo que la solucion optima se obtiene en tiempo polinomial.
En esta tesis se afronta el problema de oclusion de personas utilizando un enfoque
de seguimiento individual. Se propone un algoritmo de asociacion temporal basado en
detecciones que modela en un grafo de seguimiento las caracterısticas de las personas
y las interacciones entre ellas. La asociacion de una medicion de deteccion con una
trayectoria se efectua solo si las caracterısticas de apariencia, forma y movimiento de
la medicion son similares a las caracterısticas representadas en el modelo del objeto. El
algoritmo propuesto examina las relaciones entre las trayectorias de los objetos para el
manejo de informacion incorrecta o faltante en las mediciones de deteccion, ası como
para la prediccion de oclusiones y la estimacion de la ubicacion de los objetos ocluidos.
3.6. DISCUSION 41
3.6. Discusion
Este capıtulo presento diversos metodos que abordan el problema de seguimiento
de multiples personas desde diferentes perspectivas.
Los metodos que utilizan multiples vistas de la camara para el seguimiento de multi-
ples objetos, por ejemplo [KS09, MSMCMCCP09, KPB+05, RNCS09], con un costo
computacional alto, pueden estimar la informacion de profundidad de los objetos. Esta
informacion puede ser empleada en el seguimiento de las personas y en la resolucion
de la oclusion. Aunque este tipo de metodos pueden lograr resultados de rastreo supe-
riores a los alcanzados por rastreadores monoculares, en muchas situaciones realistas
no es posible obtener distintas vistas traslapadas de la escena debido a la limitacion de
recursos.
Los metodos que mejoran la etapa de deteccion y representacion de las personas
[SHT+06, VGC11, WN07, WN09, DT05, LD10, ARS08] son capaces de enfrentar oclu-
siones parciales. Sin embargo, como estos metodos no consideran la interaccion entre los
objetivos, los atributos de las personas pueden ser perturbados durante las oclusiones
parciales produciendo fragmentacion en las trayectorias, intercambios de identidad o la
perdida total de los objetos rastreados.
Los metodos que emplean algoritmos de asociacion temporal basados en deteccio-
nes para el rastreo de multiples objetos [YJS06, HTWM04, Bla04, BS87] presentan el
problema de interferencia durante la interaccion de objetivos espacialmente cercanos.
Este problema provoca errores como intercambios de identidad o la perdida total de
las trayectorias, debido a que las oclusiones no pueden ser tratadas por la carencia de
un modelo de interaccion. Los metodos de asociacion temporal basados en trayectorias
evitan los errores de rastreo mediante la optimizacion de las trayectorias de los objetivos
a traves del analisis integral de la secuencia [ZLN08, YN12, Col12, SJSRC10, BAT11,
HXTG07, LTL+09, MYC09].
En esta tesis se propone un algoritmo de asociacion temporal basado en deteccio-
nes. El algoritmo propuesto fue disenado para reducir los errores de rastreo mediante el
42 CAPITULO 3. REVISION DEL TRABAJO PREVIO
analisis de la interaccion de las personas y la actualizacion correcta de los atributos de
estas durante su seguimiento. El algoritmo de asociacion temporal propuesto permite
el seguimiento individual de multiples individuos en escenarios estacionarios no con-
trolados, a partir de la informacion proporcionada por una camara. Las ventajas que
presenta el algoritmo de asociacion propuesto son que permite detectar las trayectorias
generadas por falsos positivos en las mediciones de deteccion, predecir el momento en
que ocurriran las oclusiones parciales o totales, y estimar la ubicacion de las distintas
personas que se encuentran ocluidas en un instante de tiempo. Ademas, enfrenta el
problema de oclusion en escenarios donde no se tiene control del fondo de la escena, ni
de la iluminacion del ambiente, tampoco de la vestimenta de las personas.
3.7. Resumen
En este capıtulo se presentaron los principales trabajos previos que proponen estra-
tegias para tratar el problema de la oclusion en el seguimiento de multiples objetos.
En la seccion 3.1 se explico por que es importante estudiar el problema de oclusion
en el seguimiento. En la seccion 3.2 se presentaron los trabajos relacionados que abor-
dan este problema mediante multiples camaras. En la seccion 3.3 se describieron los
trabajos previos que tratan la oclusion utilizando una camara. En esta seccion se pre-
sentaron distintos enfoques de seguimiento: colectivo e individual. En la seccion 3.4 se
describieron los trabajos previos que manejan la oclusion parcial mediante la etapa de
deteccion y representacion del proceso de seguimiento. En la seccion 3.5 se presentaron
los trabajos previos que abordan la oclusion total. Dos enfoques de asociacion temporal,
uno basado en detecciones y otro basado en trayectorias, fueron presentados en esta
seccion. En la seccion 3.5 se discutieron las diferencias mas importantes entre nuestro
metodo y aquellos encontrados en el trabajo previo.
El capıtulo 4 de la tesis describe el metodo propuesto para seguir a multiples perso-
nas en escenarios estacionarios no controlados. En este capıtulo se presenta un esquema
de deteccion de individuos basado en un modelo de silueta humana; se describe la re-
3.7. RESUMEN 43
presentacion de la persona mediante modelos de apariencia, forma y movimiento; y se
presenta un algoritmo de asociacion temporal que construye un grafo cuyo objetivo
principal es mantener el seguimiento de las personas durante las oclusiones.
Capıtulo 4
Metodo propuesto
En este trabajo se propone un metodo para el seguimiento de multiples personas
que pueden ocluirse en escenarios estacionarios no controlados. La figura 4.1 muestra
las etapas que componen el metodo de seguimiento propuesto en la tesis.
Figura 4.1: Etapas que componen el metodo de seguimiento propuesto.
El metodo detecta regiones en movimiento en el fotograma actual de la secuencia
para reducir el area donde se buscara a las personas en la escena. Posteriormente, se
detectan multiples personas en estas regiones mediante un esquema de deteccion basado
45
46 CAPITULO 4. METODO PROPUESTO
en un modelo de silueta humana. A continuacion, se obtienen los modelos de apariencia,
forma y movimiento que representan a las personas. Por ultimo, se comparan estos
modelos con los atributos representados en las personas que estan siendo rastreadas,
con el fin de efectuar la asociacion por similitud que permita realizar su seguimiento.
Las secciones del capıtulo describen detalladamente las etapas que componen el metodo
propuesto para el seguimiento de multiples personas.
4.1. Deteccion de personas
La deteccion de personas en una amplia variedad de poses y vestimentas en ambien-
tes moderadamente poblados, es un problema desafiante. En este trabajo se afronta este
reto mediante un esquema de deteccion disenado para localizar a multiples personas que
pueden estar parcialmente ocluidas en escenarios estacionarios. El esquema propuesto
examina areas en el escenario en donde hay presencia de movimiento; posteriormente,
localiza a los objetos que se ajustan al modelo de la silueta humana.
El esquema de deteccion modela el fondo del escenario mediante la creacion de un
mapa de probabilidad de una mezcla de Gaussianas. El mapa utiliza caracterısticas de
textura locales y caracterısticas de color invariantes, como se propone en [YO07] (apar-
tado 2.1). Tambien es adaptativo a cambios en la iluminacion del ambiente, ası como a
la adicion y eliminacion de objetos estacionarios en el escenario. Las regiones del primer
plano de la escena, correspondientes a objetos en movimiento, son obtenidas median-
te un filtro de umbralizacion aplicado a la imagen residual, la cual es producto de la
substraccion del modelo del fondo en el fotograma actual de la secuencia de imagenes.
El esquema propuesto modela la silueta humana mediante la construccion de una
plantilla en la representacion de bases activas (apartado 2.2.1). Esta representacion
esta formada por una composicion de elementos wavelets de Gabor que pueden ser
ligeramente perturbados, por tanto, la plantilla es deformable. La plantilla es aprendi-
da a partir de imagenes de personas con diferentes poses y atuendos proporcionadas
por [UCL11], utilizando el algoritmo de bosquejo compartido propuesto por [WSGZ10]
4.1. DETECCION DE PERSONAS 47
(apartado 2.2.2). Luego, el esquema de deteccion efectua el ajuste de la plantilla en
la imagen mediante la arquitectura de mapas SUM-MAX propuesta por [WSGZ10]
(apartado 2.2.3). Esta arquitectura alterna entre mapas SUM y mapas MAX. Los ma-
pas SUM son el resultado de la aplicacion local de filtros para detectar segmentos de
bordes y formas. Los mapas MAX son el resultado de la aplicacion local de operacio-
nes de maximizacion que permiten el rastreo de la deformacion de los elementos de la
plantilla. La arquitectura de mapas SUM-MAX produce como resultado un mapa que
contiene una medida de similitud de que tan bien se ajusta el modelo a cada punto en
la imagen, por lo tanto, el mapa puede ser interpretado como un filtro de forma.
Con la finalidad de detectar a personas con diferentes tamanos, el esquema propuesto
obtiene mapas de filtros de forma en diferentes escalas de la imagen. Posteriormente, el
esquema propuesto encuentra las mejores respuestas del ajuste del modelo de la persona
en la imagen. Las respuestas locales maximas de los mapas se calculan en las regiones
de la imagen que corresponden a objetos en movimiento. Para evitar el sobre-ajuste
de la plantilla a traves de las multiples escalas, despues de obtener la respuesta global
maxima de los mapas de filtros de forma, la zona abarcada por la silueta encontrada
es marcada como ocupada. La busqueda de las respuestas maximas se repite sobre las
regiones vacantes para encontrar a mas personas en la escena.
La figura 4.2 muestra el esquema de deteccion de las personas propuesto en una
imagen de prueba.
El esquema de deteccion propuesto se describe por pasos en el siguiente algoritmo:
Paso 1 Obtener el modelo de base activa a partir de imagenes de entrenamiento con
personas utilizando el algoritmo de bosquejo compartido propuesto por [WSGZ10]
descrito en el apartado 2.2.2.
Paso 2 Obtener el modelo del fondo de la escena en el fotograma actual usando el
algoritmo propuesto por [YO07] presentado en el apartado 2.1.
Paso 3 Obtener las regiones en movimiento mediante el filtrado por umbralizacion.
Un umbral global es calculado automaticamente para cada imagen utilizando el
48 CAPITULO 4. METODO PROPUESTO
Figu
ra4.2:
Esquem
adedeteccion
deperson
as.a)
Laplan
tillarep
resentad
apor
unabase
activaes
apren
didaapartir
deim
agenes
deperson
ascon
diferen
tesposes
yrop
a.Elajuste
deesta
plan
tillaen
laim
agengen
eracom
oresu
ltadounmap
aquepuedeser
interp
retadocom
ofiltros
deform
a.b)Los
map
asdefiltros
deform
aap
licados
endistin
tasescalas
dela
imagen
sonob
tenidos
para
facilitarla
deteccion
de
person
ascon
diferen
tetam
ano.
Labusquedadelas
respuestas
locales
max
imas
entodos
losmap
asse
reduce
alas
regiones
enmovim
iento
detectad
as(en
lafigu
rasolo
semuestra
unmap
adefiltros
deform
a).cyd)Elajuste
dela
plan
tillaen
diferen
tesiteracion
esproduce
comoresu
ltadola
deteccion
demultip
lesperson
as.Los
verdad
erospositivos
(VP)yfalsos
positivos
(FP)en
lasmedicion
esdedeteccion
estanmarcad
osen
verdeyrojo,
respectivam
ente.
4.1. DETECCION DE PERSONAS 49
metodo de Otsu [Ots79].
Paso 4 Obtener los filtros de forma utilizando la arquitectura de mapas SUM-MAX
propuesta por [WSGZ10] para el modelo de base activa de las personas en dife-
rentes escalas de la imagen (ver apartado 2.2.3).
Paso 5 Buscar las respuestas a los filtros con mayor valor en los multiples filtros de
forma y ordenar descendentemente estas respuestas.
Paso 6 Obtener la escala y posicion de la imagen para la respuesta con mayor valor.
Encontrar las deformaciones del modelo de base activa en el mapa SUM1 de la
arquitectura de mapas SUM-MAX (ver apartado 2.2.3).
Paso 7 Determinar la region convexa del modelo encontrado en el paso 6 en la escala
original de la imagen y determinar el porcentaje de area de la interseccion de la
region convexa con las regiones en movimiento del fondo.
Paso 8 Si el porcentaje de area es valido, la persona es detectada en la imagen y la
region ocupada por la silueta del objeto es eliminada de las regiones en movi-
miento. De lo contrario, para evitar el sobre-ajuste del modelo, los pıxeles vecinos
de la posicion dentro de un radio establecido son eliminados de las regiones en
movimiento.
Paso 9 Seleccionar la respuesta maxima subsecuente a la analizada en el paso 5 y
repetir los pasos 6, 7 y 8 hasta que no se encuentren regiones en movimiento
en la imagen, no existan mas respuestas que analizar, o se alcance el numero de
personas maximo establecido.
Paso 10 Ir al paso 2 para detectar las siluetas de las personas en el fotograma siguiente.
50 CAPITULO 4. METODO PROPUESTO
4.2. Representacion de las personas
Cada persona a ser rastreada en la escena esta representada por los modelos de su
forma, apariencia y movimiento.
4.2.1. Modelo de forma
La forma del cuerpo humano es modelada por una region elıptica con un vector de
parametros S = (xc, yc, ϕ, rx, ry), donde (xc, yc) es el centro de la elipse, ϕ es el angulo
de orientacion de acuerdo con el eje x, y (rx, ry) son los semiejes de la elipse.
En este trabajo los parametros del modelo de la forma del objeto se deducen de
la ubicacion del rectangulo que envuelve la medicion proporcionada por el esquema
de deteccion de personas propuesto. El angulo de la orientacion de la elipse siempre
adquiere un valor de 90◦.
4.2.2. Modelo de apariencia
La apariencia del objeto en la imagen es representada por el histograma q que
describe la distribucion de los colores de los pıxeles en el area ocupada por el objeto S.
Para producir el histograma q, el cubo de color es dividido en m contenedores de
igual tamano, y la funcion b : S ⊂ R2 → {1, . . . ,m} es definida para asignarle al pıxel
ubicado en pj el ındice b(pj) del contenedor correspondiente a su color cuantizado u.
La distribucion de la densidad de color para cada contenedor q(u) se calcula como:
q(u) =1
|S|∑pj∈S
κ[b(pj)− u] (4.1)
donde κ es la funcion delta de Kronecker y |S| denota la cardinalidad del conjunto S.
El factor 1|S| impone la condicion
∑u q(u) = 1 para normalizar el histograma resultante
q = {q(u)}u=1,...,m.
En nuestros experimentos, cada histograma se calcula en el cubo RGB utilizando
contenedores de tamano 16x16x16 en la region elıptica que modela la forma del objeto.
4.2. REPRESENTACION DE LAS PERSONAS 51
4.2.3. Modelo de movimiento
El movimiento del objeto esta representado por la lista M = [x, P ], donde x es el
vector de estado de la estimacion a posteriori, el cual incluye parametros de la posicion
y velocidad del objeto, y P es la matriz de covarianza del error asociado a la estimacion
a posteriori.
En esta tesis se emplea el algoritmo de filtro de Kalman [Kal60] para predecir y
corregir el modelo dinamico del objeto a partir de una serie de mediciones incompletas
y/o con ruido. Sin embargo, el modelo de movimiento del objeto tambien puede ser
representado por los parametros de la transformacion afın, a partir de la estimacion
de movimiento del objeto mediante la medicion de su flujo optico, como se explica en
nuestro trabajo previo [RAGMC13].
El filtro de Kalman esta definido por la ecuacion de estado xk y la ecuacion de
medicion zk, como se muestra en la ecuacion 4.2.
xk = Axk−1 + wk−1
zk = Hxk + vk(4.2)
donde A es la matriz de transicion de estados; H es la matriz de medicion; w y v
representan ruido.
El filtro de Kalman utiliza un algoritmo que integra una etapa de prediccion y una
etapa de correccion. La etapa de prediccion esta definida por la ecuacion 4.3, la cual
proyecta la estimacion del estado mas reciente y la estimacion de la covarianza del error
para calcular la estimacion a priori del estado en el instante de tiempo actual.
xk = Axk−1
Pk = APk−1AT +Q
(4.3)
donde x y x son la estimacion a priori del estado y la estimacion a posteriori del
estado, respectivamente; P y P son la covarianza de la estimacion a priori del error y
la covarianza de la estimacion a posteriori del error, respectivamente; Q es la covarianza
52 CAPITULO 4. METODO PROPUESTO
del ruido en el proceso.
La etapa de correccion esta definida por la ecuacion 4.4, la cual incorpora la medicion
mas reciente del proceso para corregir la prediccion del estado obtenida en la primera
etapa y generar la estimacion a posteriori del estado.
Kk = PkHT (HPkH
T +R)−1
xk = xk +Kk(zk −Hxk)
Pk = (I −KkH)Pk
(4.4)
donde K es la ganancia de Kalman; I es la matriz identidad; R es la covarianza del
error en la medicion.
4.3. Seguimiento de personas
En una escena con multiples personas existen situaciones complicadas que intro-
ducen ambiguedades en la etapa de asociacion temporal. Algunas de estas situaciones
son: la presencia de oclusiones parciales o totales entre personas, la entrada y salida
de individuos en la escena, y los falsos positivos y falsos negativos procedentes de la
etapa de deteccion. El algoritmo de asociacion temporal que se propone en esta tesis
construye un grafo de seguimiento que captura la informacion de la apariencia de las
personas y describe sus trayectorias mientras permanecen en el campo de vision de la
escena.
4.3.1. Descripcion del grafo de seguimiento
El grafo de seguimiento genera un conjunto de hipotesis de trayectorias y es cons-
truido a partir del analisis temporal de las trayectorias de las personas y reglas de
interaccion que detectan y predicen eventos de oclusion. En la construccion del grafo
adoptamos la restriccion de unicidad, la cual establece que una medicion de una persona
puede ser asociada unicamente con una trayectoria o hipotesis de seguimiento estable-
cida. La figura 4.3 muestra un ejemplo del grafo de seguimiento que se construye para
4.3. SEGUIMIENTO DE PERSONAS 53
la secuencia de video dada.
Las reglas que definimos para la construccion del grafo permiten manejar las am-
biguedades de la asociacion temporal cuando hay personas ocluidas, entrada y salida de
personas en la escena, y falsos positivos y falsos negativos en la deteccion. Estas reglas
son:
Inicializacion de una trayectoria: Cuando una persona es detectada en la
escena y no existe una similitud entre sus caracterısticas y las caracterısticas de
las personas que estan siendo rastreadas, se inicializa una hipotesis de trayectoria
para que la persona que entra en la escena pueda ser rastreada.
Confirmacion de una trayectoria: El algoritmo propuesto confirma una hipote-
sis de trayectoria si la medicion de una persona detectada en el fotograma actual
corresponde a la trayectoria de la persona que esta siendo rastreada.
Inicio de la oclusion total: Este evento surge cuando la persona no es detectada
en el fotograma actual y hay evidencia de que la persona fue ocluida parcialmente
en fotogramas previos. Cuando se presenta este evento, el algoritmo propuesto
inicializa distintas hipotesis respecto a la ubicacion de la persona ocluida conside-
rando los 3 siguientes casos: (a) la persona conserva su direccion y velocidad, (b)
la persona sigue la direccion y velocidad de su oclusor, y (c) la persona permanece
inmovil durante la oclusion.
Fin de la oclusion total: Este evento surge cuando se detecta por primera
vez, parcial o totalmente, a la persona que fue ocluida totalmente en fotogramas
previos. Cuando se presenta este evento, una de las hipotesis generadas en el
evento de inicio de la oclusion es confirmada y las dos hipotesis restantes son
eliminadas.
Continuacion de una trayectoria: Si una persona que esta siendo rastreada no
es detectada en el fotograma actual y no se presenta un evento de inicio de oclusion
total, el algoritmo propuesto predice la ubicacion de la persona de acuerdo con
54 CAPITULO 4. METODO PROPUESTO
Figura 4.3: Grafo de seguimiento.Esta figura muestra un ejemplo del grafo de seguimiento construido por el algoritmode asociacion temporal. Dada una secuencia con multiples objetos (representados porformas geometricas en color), las mediciones de estos objetos son encontradas por elesquema de deteccion. Estas mediciones son analizadas por el algoritmo de asociaciontemporal para construir el grafo de seguimiento que describe la trayectoria de cada ob-jeto que esta siendo rastreado. Los vertices del grafo estan representados por cırculos ylas aristas por lıneas. Los cırculos blancos y grises simbolizan los objetos detectados y nodetectados, respectivamente. Las lıneas continuas representan las asociaciones definiti-vas en el seguimiento de los objetos. Las lıneas discontinuas simbolizan las asociacionesdescartadas en el seguimiento de los objetos. La construccion del grafo esta dirigida pordiferentes reglas de interaccion. Estas reglas permiten inicializar y finalizar trayectoriascuando el objeto entra y sale del escenario (ver � y � en I t−3 ); continuar la trayectoriade un objeto cuando no es detectado (ver FN para � en I t−2); eliminar las trayectoriasgeneradas por falsos positivos en la deteccion (ver FP para ⋆ en I t−2); detectar elinicio de una oclusion total y generar distintas hipotesis para manejar la oclusion (verN en I t−2); detectar el fin de una oclusion total y validar la hipotesis de trayectoriaque siguio el objeto (ver N en I t, este objeto valido la primera hipotesis al mantener sudireccion y velocidad durante la oclusion).
4.3. SEGUIMIENTO DE PERSONAS 55
su direccion y velocidad, y genera una hipotesis de trayectoria para continuar con
su seguimiento.
Esta regla se establecio para continuar el seguimiento de las personas cuando se
obtienen falsos negativos en la etapa de deteccion, o cuando las personas son
ocluidas totalmente por un periodo de tiempo.
Eliminacion de una trayectoria: El algoritmo propuesto detecta los falsos
positivos que se generaron en la etapa de deteccion y elimina las hipotesis de
trayectorias que fueron generados por estos. Un falso positivo es detectado de
forma diferida cuando una trayectoria es inicializada, pero no es confirmada por
alguna medicion de las personas detectadas en m fotogramas subsecuentes.
Finalizacion de una trayectoria: Cuando una persona no es detectada en la
escena y hay evidencia de que la persona no fue ocluida en fotogramas previos, y
ademas el porcentaje de deteccion de la persona se redujo durante el seguimiento
de la misma, se finaliza la trayectoria de la persona para indicar que la persona
salio de la escena.
4.3.2. Representacion del grafo de seguimiento
Sea G =< N,E > el grafo de seguimiento, donde N = {No ∪ Nh} es el conjunto
de vertices del grafo que corresponden a mediciones de personas detectadas (No) o a
hipotesis generadas de las personas que no estan visibles (Nh).
Cada vertice del grafo es identificado por su ındice k en el tiempo t como ntk y tiene
asociado una lista de atributos que describe a la persona que representa, denotada por
Atrtk. Los atributos de la lista Atr son:
Atr = [id, S, q,M ]
donde id es la identidad del objeto rastreado, S es una region que describe la forma,
tamano y ubicacion del objeto, q es el histograma de color que describe su apariencia,
56 CAPITULO 4. METODO PROPUESTO
y M es una lista de parametros que describen su movimiento.
Una arista dirigida (nt−1i , nt
j) ∈ E entre dos vertices en instantes de tiempo con-
secutivos esta definida para dos casos de acuerdo con la regla de confirmacion de una
trayectoria y la regla de continuacion de una trayectoria. Estos casos son:
1. Si ntj ∈ No entonces se debe satisfacer la funcion de similitud que asocia los objetos
rastreados con las mediciones de deteccion, es decir,
(nt−1i , nt
j) ∈ MaximaSimilitud(N t−1i , N t).
Esta funcion se define en la tabla 4.1 y se explica en el apartado 4.3.5.
2. De lo contrario, si ntj ∈ Nh es el sucesor predicho de nt−1
i ∈ Nh, entonces se
genera la arista como una hipotesis de trayectoria para mantener la identidad de
los objetos que no fueron detectados o se encuentran ocluidos.
4.3.3. Algoritmo de asociacion temporal
El algoritmo de asociacion temporal propuesto emplea las mediciones de las per-
sonas, obtenidas en la etapa de deteccion, para determinar que personas deben ser
rastreadas en cada fotograma. Este algoritmo acumula las mediciones de deteccion en
un grafo de seguimiento que mantiene las trayectorias o las hipotesis de seguimiento de
las mediciones con base en las reglas definidas en el apartado 4.3.1.
El algoritmo de asociacion temporal propuesto para el seguimiento de multiples
personas se presenta en el algoritmo 4.1. La descripcion general de las variables y
funciones empleadas por el algoritmo se presenta en la tabla 4.1.
El funcionamiento del algoritmo es el siguiente. Una iteracion comienza con el con-
junto de hipotesis de trayectorias del fotograma anterior. Cada hipotesis es una coleccion
de rutas disjuntas. Para cada hipotesis se realiza una prediccion para estimar la ubica-
cion del objeto en el fotograma actual. Las mediciones de los individuos visibles en la
escena se obtienen mediante la aplicacion del esquema de deteccion propuesto con la
4.3. SEGUIMIENTO DE PERSONAS 57
finalidad de seleccionar a los objetos que deben rastrearse. Las relaciones de oclusion
entre hipotesis de trayectorias se obtienen para determinar que hipotesis corresponden
a los objetos que participan en un evento de oclusion, y determinar cual es el individuo
oclusor y cual es el individuo ocluido en cada relacion.
Las mediciones actuales se comparan con las predicciones de los objetos rastreados
mediante la evaluacion de una funcion de similitud. Este proceso se desarrolla en dos
etapas. La primera etapa busca la conexion entre pares cercanos mediante la similitud
de los objetos de acuerdo a su apariencia y movimiento espacial. La segunda etapa
continua con el enlace de los pares de objetos que se localizan en un area valida y no
han sido asociados a traves de la valoracion de la similitud de los objetos conforme a
su apariencia y posicion. En ambos casos, si la evaluacion de la funcion de similitud
es aceptada, la medicion se asocia a la trayectoria. En caso contrario, se genera una
hipotesis de trayectoria para cada nueva medicion. Esta hipotesis tendra que confirmarse
en fotogramas subsecuentes para determinar si se trata de la medicion correspondiente
a un objeto entrando al campo de vision, o si la medicion corresponde a un falso positivo
generado en la etapa de deteccion.
Para cada prediccion que no este apoyada por una medicion, se evalua si el obje-
to abandono el campo de vision de la escena, esta siendo ocluido por otro objeto o
simplemente no fue detectado debido al ruido del ambiente. De acuerdo con las reglas
definidas, para los dos ultimos casos se genera la hipotesis de seguimiento que predice la
ubicacion del objeto. Esta hipotesis mantiene la direccion y la velocidad de la persona
rastreada. Como un caso especial, cuando se produce el evento de oclusion total por
primera vez, se generan dos hipotesis adicionales considerando que la persona adopta
la direccion y la velocidad de su oclusor, o bien, que esta permanece inmovil durante
la oclusion.
Para finalizar la iteracion, se eliminan las hipotesis de oclusion que se contradicen,
se eliminan las hipotesis generadas por falsos positivos detectados, y se finalizan las
hipotesis correspondientes a objetos que salieron del campo de vision.
58 CAPITULO 4. METODO PROPUESTO
Tabla 4.1: Variables y funciones del algoritmo de asociacion temporal.
VariablesT : numero total de fotogramas.I: secuencia de imagenes con personas.t: fotograma actual.G: grafo de seguimiento G =< No, Nh, E > .No: vertices que representan objetos visibles.Nh: vertices que representan hipotesis de objetos no de-
tectados u ocluidos.E: aristas que unen dos vertices.O: conjunto de objetos en un evento de oclusion.V : conjunto de objetos detectados de la imagen.µρ: umbral de apariencia establecido en el proceso de
asociacion por similitud.µg: radio establecido para el area de validacion aceptada
en el proceso de asociacion por similitud.m: numero de fotogramas requeridos para eliminar
hipotesis en el grafo de seguimiento.λ: porcentaje de traslape entre predicciones de objetos.t: hace referencia a objetos en el fotograma t.
k: hace referencia al k-esimo objeto en el fotograma.S: hace referencia a la region de forma del objeto.
St−1|t: hace referencia a la region de prediccion estimadapara el objeto.
FuncionesDeteccionDePersonas: Obtiene las regiones que pertenecen a personas en
la imagen y sus atributos.AgregaVerticeAGrafo: Agrega un vertice al grafo de seguimiento y asocia
los atributos del objeto.MaximaSimilitud: Encuentra el objeto con mayor similitud.
AgregaAristaAGrafo: Asocia dos vertices en el grafo de seguimiento.ActualizaAtributos: Actualiza los atributos del objeto de acuerdo con
ciertos criterios.Oclusion: Encuentra el conjunto de objetos que participan en
un evento de oclusion.OrdenaObjetosEnOclusion: Determina el objeto que ocluye y el objeto que es
ocluido en un evento de oclusion.PrimeraOclusion: Determina si se presenta el inicio de una oclusion
total para un objeto determinado.EliminaHipotesis: Elimina las hipotesis contradictorias o no confirma-
das en el grafo de seguimiento causadas por oclusio-nes, falsas alarmas y salida de objetos.
4.3. SEGUIMIENTO DE PERSONAS 59
Algoritmo 4.1: Algoritmo de asociacion temporal.
Entrada: I - una secuencia de imagenes con personasSalida: G - grafo de seguimiento
1 G =< ∅, ∅, ∅ >2 Proporciona valores para µρ, µg, m y λ3 para t : 1..T hacer4 Asoc = ∅5 V =DeteccionDePersonas (I t)6 O= Oclusion (N t−1,λ)7 π= OrdenaObjetosEnOclusion (O)8 para cada vk ∈ V hacer9 N t
ok= AgregaVerticeAGrafo (G, vk, t,“No”)
10 si Stok∩ St−1|t = ∅ entonces
11 Fmax =MaximaSimilitud (N tok, N t−1
j : Stok∩ St−1|t, µρ, µg)
12 si Fmax = ∅ entonces13 AgregaAristaAGrafo (G,E, (Fmax, N
tok))
14 Asoc = {Asoc ∪ Fmax ∪N tok}
15 para cada nj ∈ N to\Asoc hacer
16 Fmax =MaximaSimilitud (nj, Nt−1\Asoc, µρ, µg)
17 si Fmax = ∅ entonces18 AgregaAristaAGrafo (G,E, (Fmax, nj))19 Asoc = {Asoc ∪ Fmax ∪ nj}
20 ActualizaAtributos (N to)
21 para cada ai ∈ N t−1\Asoc hacer22 N t
h1= AgregaVerticeAGrafo (G, ai, t,“Nh”)
23 AgregaAristaAGrafo (G,E, (ai, Nth1))
24 ActualizaAtributos (N th1, ∅, 0, “la persona mantiene su direccion y
velocidad”)25 si PrimeraOclusion (ai,O, π) entonces26 N t
h2= AgregaVerticeAGrafo (G, ai, t,“Nh”)
27 AgregaAristaAGrafo (G,E, (ai, Nth2))
28 ActualizaAtributos (N th2,O, π, “la persona adopta la direccion y la
velocidad de su oclusor”)29 N t
h3= AgregaVerticeAGrafo (G, ai, t,“Nh”)
30 AgregaAristaAGrafo (G,E, (ai, Nth3))
31 ActualizaAtributos (N th3, ∅, 0, “la persona permanece inmovil
durante la oclusion.”)
32 G = EliminaHipotesis (G,m)
60 CAPITULO 4. METODO PROPUESTO
Los siguientes apartados presentan la descripcion detallada de tres de los principales
componentes del algoritmo de asociacion temporal propuesto. En ellos se explica como se
obtienen las relaciones de oclusion entre las personas que interactuan en la escena, como
se realiza la asociacion entre los individuos rastreados y las mediciones de deteccion, y
como se actualizan los atributos de los objetivos durante su seguimiento.
4.3.4. Relaciones de oclusion
En este apartado se describe como el algoritmo de asociacion temporal detecta los
eventos de oclusion entre las personas y ordena los objetos que participan en el evento
(algoritmo 4.1, funciones: Oclusion y OrdenaObjetosEnOclusion, lıneas: 6 y 7).
Para representar posibles oclusiones entre las personas, se verifica si las areas de
prediccion St|t−1de los vertices se traslapan. Cada prediccion se identifica por su ındice
k en el tiempo t como St|t−1k y se estima mediante la traslacion de su respectivo modelo
de forma, de acuerdo con la prediccion de su movimiento obtenido por la ecuacion 4.3.
El conjunto de relaciones binarias de oclusion O entre las regiones traslapadas se
construye como sigue:
O = {(nt−1i , nt−1
j )|idi = idj,|St|t−1
i ∩ St|t−1j |
|St|t−1i |+ |St|t−1
j |> λ} (4.5)
donde la restriccion idi = idj impide que se formen relaciones de oclusion entre las
hipotesis generadas por el mismo objeto. El umbral λ se establece como el indicador
de porcentaje de traslape para identificar una posible oclusion. En condiciones ideales,
donde las predicciones son precisas, λ adquiere el valor de cero. En nuestros experi-
mentos, establecimos λ = 0.2 para evitar oclusiones ligeras entre predicciones ruidosas
y permitir la captura de objetos con visibilidad parcial antes de presenciar eventos de
oclusion total.
Para ordenar los elementos de cada par en el conjunto de oclusion O, definimos la
4.3. SEGUIMIENTO DE PERSONAS 61
funcion πij ∈ {+1,−1} entre los objetos i y j, donde πij = +1 significa que i ocluye a
j y and πij = −1 significa que j ocluye a i.
Para determinar quien ocluye a quien, primero se verifica si los vertices en el conjunto
de la oclusion estan visibles o no visibles en el fotograma actual. Un vertice nt−1k ∈ O
esta visible en el tiempo t, si su modelo de apariencia coincide con el modelo de una
medicion detectada en la region traslapada. En este caso, representamos como ntk′ ∈ V t
al sucesor correspondiente de nt−1k que esta visible en el tiempo t.
La funcion de oclusion π es evaluada en el fotograma actual de la siguiente manera:
πti′j′ =
+1 si nti′ ∈ V t, nt
j′ ∈ V t, upyc(nti′ , S
t|t−1j ) >downyc(n
ti′ , S
t|t−1j )
−1 si nti′ ∈ V t, nt
j′ ∈ V t, upyc(nti′ , S
t|t−1j ) <downyc(n
ti′ , S
t|t−1j )
+1 si nti′ ∈ V t, nt
j′ /∈ V t
−1 si nti′ /∈ V t, nt
j′ ∈ V t
πt−1ij en caso contrario
(4.6)
donde upyc y downyc son las areas de la region de forma dada por encima y abajo
del centro del objeto de referencia. La comparacion de estas funciones de area permite
estimar el orden espacial de los objetos, considerando la alineacion global de sus regiones
de forma.
Como se muestra en la ecuacion 4.6, las relaciones de oclusion se deducen de la
visibilidad espacial de los objetos en el fotograma actual. Para los casos en que los
objetos no estan visibles, el orden de los objetos antes de la oclusion se mantiene al
adquirir el valor anterior de la funcion de la oclusion.
4.3.5. Asociacion por similitud
En este apartado se describe el proceso de asociacion de similitud llevado a cabo
por el algoritmo de asociacion temporal propuesto (algoritmo 4.1, funcion: MaximaSi-
militud, lıneas: 11 y 16).
62 CAPITULO 4. METODO PROPUESTO
De acuerdo con los modelos de las personas descritos en el apartado 4.2, se definen
las metricas de similitud que nos permiten evaluar si un individuo rastreado puede ser
espacial y temporalmente vinculado con un objetivo candidato.
La similitud de apariencia entre el objeto rastreado q y el color p de un candidato
se calcula mediante el coeficiente de Bhattacharyya ρ definido como:
ρ(p, q) = Σ√p(u)q(u) (4.7)
donde ˆp(u) y ˆq(u) son las densidades de color normalizadas del contenedor u. El coe-
ficiente ρ esta en el rango de [0, 1], donde ρ = 1 indica que los dos histogramas son
identicos, y ρ disminuye a medida que los histogramas difieren.
La similitud del movimiento espacial entre la region predicha del objeto rastreado
Sq y la region Sp de un candidato es medida calculando la metrica de similitud de
Hamming δ, definida como:
δ(Sp, Sq) = 1− |Sp ∩ Sq|+ |Sq ∩ Sp||Sp|+ |Sq|
(4.8)
La metrica δ se encuentra en el rango de [0, 1], donde δ = 1 significa que las dos
regiones son identicas, y δ disminuye a medida que las regiones difieren.
La cercanıa entre los puntos centrales cp y cq de las regiones de los objetos Sq y Sp
es estimada mediante la popular metrica euclidiana de distancia d.
Ademas de estas metricas, se define un area de validacion para delimitar el es-
pacio en donde pueden ocurrir correspondencias temporales. El area de validacion es
aproximada por una region circular con centro en el area de prediccion, cuyo tamano
esta determinado por un radio de validacion establecido µg.
Las mediciones de deteccion que se encuentran dentro del area de validacion de las
predicciones son comparadas con estas con la finalidad de enlazar los objetos rastreados
con los objetivos candidatos. El proceso para encontrar el conjunto de enlaces de objetos
con mayor similitud es el siguiente:
4.3. SEGUIMIENTO DE PERSONAS 63
Paso 1 Encontrar las predicciones cuya area se intersecte con el area de las mediciones.
Si no se encuentra ninguna prediccion, ir al paso 5.
Paso 2 Calcular las distancias ρ y δ entre las mediciones y predicciones obtenidas en
el paso 1.
Paso 3 Seleccionar las predicciones que maximicen los coeficientes ρ y δ utilizando el
algoritmo de optimizacion Hungaro [Kuh05] (apartado 2.3.2).
Paso 4 Aceptar las predicciones como los pares coincidentes de las respectivas medi-
ciones, si los coeficientes ρ satisfacen el umbral de similitud en apariencia µρ.
Paso 5 Descartar las mediciones y predicciones que han sido aceptadas por el paso 4.
Examinar las predicciones en las cuales el area de las mediciones este compren-
dida dentro de sus areas de validacion µg. Si no se encuentra ninguna prediccion,
finalizar el proceso.
Paso 6 Calcular las distancias ρ y d entre las mediciones y predicciones obtenidas en
el paso 5.
Paso 7 Seleccionar las predicciones que minimicen los coeficientes 1− ρ y d utilizando
el algoritmo de optimizacion Hungaro [Kuh05] (apartado 2.3.2).
Paso 8 Aceptar las predicciones como los pares coincidentes de las respectivas medi-
ciones, si los coeficientes ρ satisfacen el umbral de similitud en apariencia µρ.
Del paso 1 al paso 4, el proceso permite vincular las mediciones de deteccion con las
trayectorias de los objetos rastreados mediante metricas de similitud de apariencia y
movimiento espacial. Del paso 5 al paso 8, el proceso permite enlazar de las mediciones
de deteccion con las trayectorias de las personas que no fueron asociadas previamente
mediante metricas de similitud de apariencia y cercanıa.
64 CAPITULO 4. METODO PROPUESTO
4.3.6. Actualizacion de atributos
En este apartado se describe como se realiza la actualizacion de los modelos de
las personas en el algoritmo de asociacion temporal propuesto (algoritmo 4.1, funcion:
ActualizaAtributos, lıneas: 20, 24, 28 y 31).
La actualizacion de los atributos es una cuestion clave que afrontamos en esta tesis.
Esta permite que la representacion de las personas pueda ajustarse ante variaciones de
la iluminacion del ambiente y tambien facilita el rastreo de los objetos durante eventos
de oclusion y cambios en la direccion de sus trayectorias.
Para actualizar los atributos de los objetos es necesario comprobar si estos se en-
cuentran en una relacion de oclusion y saber que objeto es ocluido por que objeto en
la relacion de oclusion. Conociendo esta informacion, la actualizacion de los atributos
se lleva a cabo de la siguiente manera:
El modelo de apariencia de una persona que esta siendo rastreada se actualiza con
el modelo de apariencia de su medicion actual cuando la persona esta ausente de
una oclusion. De lo contrario el modelo de apariencia de la persona se mantiene
constante. Es decir,
qti =
qti′ si nti′ ∈ N t
o y nti′ ∈ Ot
qt−1i en caso contrario
(4.9)
El modelo de forma de una persona que esta siendo rastreada se actualiza con el
modelo de forma de su medicion actual cuando la persona esta ausente de una
oclusion. De lo contrario el modelo de forma de la persona se actualiza con el
modelo de su area de prediccion. Esto es,
Sti =
Sti′ si nt
i′ ∈ N to y nt
i′ ∈ Ot
St|t−1i en caso contrario
(4.10)
4.4. RESUMEN 65
El modelo de movimiento de una persona que esta siendo rastreada se actualiza
con el modelo de movimiento calculado a partir de la medicion actual cuando
la persona esta ausente de una oclusion (caso 0). Si se detecta que la persona
esta ocluida, el modelo de movimiento de la persona puede ser actualizado de 3
formas diferentes (caso 1, caso 2 y caso 3). Es decir,
M ti =
[xti, P
ti ] caso 0
[xti, P
ti ] caso 1
[xt−1i +HT (zto −Hxt
o), Pt−1o ] caso 2
[xt−1i , P t−1
i ] caso 3
(4.11)
El caso 1 supone que la persona i se mueve de manera independiente en el evento
de oclusion manteniendo su velocidad y direccion. Como esta suposicion puede
no cumplirse cuando las personas interactuan, el caso 2 establece que la persona
i sigue la velocidad y la direccion de su oclusor o, y el caso 3 establece que la
persona i permanece inmovil durante la oclusion.
4.4. Resumen
En este capıtulo se propuso un algoritmo de seguimiento capaz de rastrear indivi-
dualmente a multiples personas en escenarios estacionarios no controlados. En la seccion
4.1 se presento un esquema de deteccion de individuos, basado en un modelo de la si-
lueta humana, capaz de encontrar personas parcialmente ocluidas. En la seccion 4.2 se
propuso una representacion del individuo capaz de ajustarse a los cambios en su apa-
riencia originados por iluminacion variable, y capaz de enfrentarse a oclusiones parciales
y a cambios en el movimiento. En la seccion 4.3 se propuso el proceso de seguimiento
de multiples personas que enfrenta el problema de oclusion. En el apartado 4.3.3 se
presento un algoritmo de asociacion temporal que construye un grafo cuyo objetivo
principal es mantener el seguimiento de las personas en presencia de oclusiones. En el
66 CAPITULO 4. METODO PROPUESTO
apartado 4.3.4 se explico como se obtienen las relaciones de oclusion entre las personas
que interactuan en la escena. En el apartado 4.3.5 se planteo un proceso de asociacion
que determina como se enlazan las mediciones de deteccion con las trayectorias dispo-
nibles de las personas de acuerdo a la similitud de su apariencia, movimiento y cercanıa
en su localizacion. En el apartado 4.3.6 se explico como se actualizan los atributos de
los objetivos durante su seguimiento para que la representacion de los objetos pueda
ajustarse a variaciones de la iluminacion del ambiente y a cambios en la direccion de
sus trayectorias.
En el capıtulo 5 se presentan los experimentos y la evaluacion tanto del esquema
de deteccion como del algoritmo de seguimiento propuestos en la tesis. Los resultados
experimentales demuestran que el esquema de deteccion y el algoritmo de asociacion
son robustos ante diferentes escenarios con diversas interacciones entre personas y en
presencia de eventos de oclusion.
Capıtulo 5
Experimentos
En este capıtulo se presentan los resultados obtenidos por el esquema de deteccion
de personas y el algoritmo de asociacion temporal propuestos en el capıtulo 4 de la
tesis. El desempeno de estos fue validado en secuencias de imagenes con personas en
escenarios estacionarios no controlados. La descripcion de las secuencias de prueba se
presenta en el apartado 5.1. Estas secuencias fueron seleccionadas de los repositorios
de prueba CAVIAR 2005 [CAV05], PETS 2009 [PET09] y UCO 2011 [UCO11], debido
a que presentan situaciones complejas de interacciones y oclusiones entre las personas.
El apartado 5.2 presenta la evaluacion del esquema de deteccion y su comparacion con
los resultados obtenidos por trabajos previos. El esquema de deteccion de personas al-
canzo una precision del 87% en las secuencias de prueba del repositorio CAVIAR 2005.
El esquema de deteccion de personas logro una precision del 93.4% en el conjunto de
datos USC 2005 [WN05]. Este conjunto contiene una seleccion de imagenes con perso-
nas ocluidas tomadas del repositorio de prueba CAVIAR 2005. Para obtener resultados
que pudieran ser comparados con los trabajos previos, se emplearon las metricas de
evaluacion usadas por estos trabajos. El apartado 5.3 presenta la evaluacion del algorit-
mo de asociacion temporal y su comparacion con los resultados obtenidos por trabajos
previos. El algoritmo de seguimiento alcanzo una precision global del 93% en las se-
cuencias de los repositorios CAVIAR 2005, PETS 2009 y UCO 2011. En las secuencias
67
68 CAPITULO 5. EXPERIMENTOS
de prueba del repositorio CAVIAR 2005, el algoritmo de asociacion temporal propuesto
obtuvo una precision del 88.9%, superando los resultados obtenidos por los algoritmos
del trabajo previo de [ZLN08] y [SJSRC10]. La evaluacion del algoritmo de seguimiento
propuesto se llevo a cabo mediante las metricas de evaluacion usadas en los trabajos
previos. El apartado 5.4 presenta los tiempos de procesamiento del esquema de detec-
cion de personas y del algoritmo de asociacion temporal. El apartado 5.5 presenta la
discusion de los resultados obtenidos en el esquema de deteccion de personas y en el
algoritmo de asociacion temporal propuestos en la tesis.
5.1. Secuencias de prueba
El metodo de seguimiento propuesto es validado en secuencias de referencia enfoca-
das a la vigilancia inteligente. Las pruebas se realizaron en diversos escenarios reales en
donde surgen situaciones complejas de interacciones y oclusiones entre los objetivos.
La descripcion de las caracterısticas de las secuencias de prueba se presenta a con-
tinuacion.
Las secuencias CAVIAR 2005 [CAV05] permiten evaluar el funcionamiento del
algoritmo de seguimiento en ambientes de interiores. Estas secuencias fueron cap-
turadas en un corredor interior de un centro comercial en el que un numero
variable de personas en la escena desarrollan actividades como: caminar, plati-
car, entrar y salir de tiendas, esperar a otra persona, entre otras. La evalua-
cion del algoritmo se efectua en los 7 videos mas complicados del repositorio de
secuencias: TwoEnterShop3, TwoEnterShop2, ThreePastShop2, ThreePastShop1,
TwoEnterShop1, OneStopOneWait1 y OneStopMoveEnter1. El tamano de las
imagenes de estas secuencias es 384x288 pıxeles. El numero de los fotogramas de
las secuencias es 1500, en promedio.
Las secuencias PETS 2009 [PET09] permiten evaluar el funcionamiento del al-
goritmo de seguimiento en ambientes de exteriores. Los escenarios de estas se-
5.2. EVALUACION DEL ESQUEMA DE DETECCION 69
cuencias corresponden a un paso de peatones en una universidad que es captado
por multiples camaras. Las secuencias incluyen situaciones de personas que se
encuentran caminando, ya sea solos o en pareja. Los individuos, ademas, realizan
otras actividades como: reunirse con mas gente, quedarse esperando a otra perso-
na, cambiar la direccion de sus trayectorias, ası como entrar y salir de la escena.
La evaluacion del algoritmo se realiza de forma independiente en 4 secuencias
de imagenes del conjunto de datos S2: People Tracking, Scenery: L1 que incluye
las camaras identificadas como view 005, view 006, view 007 y view 008. El ta-
mano de las imagenes de estas secuencias es 720x576 pıxeles. El numero de los
fotogramas de las secuencias es 793.
Las secuencias UCO 2011 [UCO11] permiten evaluar el funcionamiento del algo-
ritmo de seguimiento en ambientes de interiores. Los escenarios de estas secuencias
corresponden a un salon de laboratorio de una universidad que es captado por
multiples camaras. La evaluacion del algoritmo se realiza de forma independiente
en 24 secuencias de imagenes de los conjuntos de datos p2v1, p2v2, p3v1 y p3v2,
de las camaras identificadas como view 1, view 2, view 3, view 4, view 5 y view 6.
El numero de personas en estas secuencias varıa de dos a tres, debido a la limita-
cion establecida por el campo de vision de la escena. Las personas se desenvuelven
libremente en el ambiente provocando situaciones complejas de interacciones fre-
cuentes y oclusiones. El tamano de las imagenes de estas secuencias es 320x240
pıxeles. El numero de los fotogramas de las secuencias es 700, en promedio.
La figura 5.1 presenta ejemplos de los escenarios de prueba empleados en la evalua-
cion del algoritmo de seguimiento propuesto.
5.2. Evaluacion del esquema de deteccion
Es difıcil la comparacion del esquema de deteccion propuesto con los algoritmos
desarrollados en el trabajo previo, debido a la variabilidad en los conjuntos de datos y
70 CAPITULO 5. EXPERIMENTOS
Figura 5.1: Escenarios de prueba.a) y b) Escenario de las secuencias CAVIAR 2005 [CAV05].c), d), e) y f) Escenarios del conjunto de datos PETS 2009 [PET09] correspondientes alas camaras view 005, view 006, view 007 y view 008. Los fotogramas mostrados comoejemplos pertenecen al mismo instante de tiempo.g), h), i), j), k) y l) Escenarios de las secuencias UCO 2011 [UCO11] vistos desde lascamaras view 1, view 2, view 3, view 4, view 5 y view 6. Los fotogramas exhibidoscorresponden al mismo instante de tiempo.
5.2. EVALUACION DEL ESQUEMA DE DETECCION 71
a la falta de acceso al codigo de programa de los mismos. A pesar de esta limitacion,
se obtuvo el codigo del metodo de deteccion HOG-SVM propuesto por Dalal y Triggs
[DT05]. La comparacion de este con el esquema de deteccion propuesto se realizo para
las 7 secuencias de prueba del conjunto de datos CAVIAR 2005 [CAV05]. Tambien, se
realizo la comparacion del esquema de deteccion propuesto con los metodos de deteccion
de Wu y Nevatia [WN07] y Lin et al. [LD10] para el conjunto de datos USC 2005
[WN05]. El conjunto USC 2005 es un subconjunto de imagenes tomado de las secuencias
de CAVIAR 2005 [CAV05] en el cual estos metodos de deteccion reportan resultados
cuantitativos. La evaluacion del esquema de deteccion en las secuencias de prueba de
los conjuntos de datos PETS 2009 [PET09] y UCO 2011 [UCO11] no fue posible debido
a que estos conjuntos no proporcionan la informacion del rectangulo delimitador de las
detecciones de la verdad absoluta de las personas.
En los experimentos realizados en los conjuntos de datos CAVIAR 2005 y USC 2005,
el tamano de las personas consideradas varıan de 50x24 a 200x96 pıxeles. Con el fin
de evaluar el desempeno del esquema de deteccion propuesto, se obtuvo la relacion del
area de interseccion entre el rectangulo delimitador de una medicion de deteccion y el
rectangulo delimitador de la deteccion de la verdad absoluta que le corresponde. Si la
relacion del area de interseccion entre ambos rectangulos delimitadores es mayor que
un umbral η =0.5, se considera que la medicion de deteccion es correcta.
La figura 5.2 muestra la comparacion del esquema de deteccion propuesto con el
metodo HOG-SVM de [DT05] para las secuencias de prueba del conjunto de datos CA-
VIAR 2005 [CAV05]. En todas las secuencias de prueba, el esquema propuesto consigue
un rendimiento mayor que el metodo HOG-SVM.
El esquema de deteccion propuesto permitio la localizacion de multiples personas
que fueron parcialmente ocluidas a causa de su interaccion con los otros elementos
del ambiente. En las secuencias del repositorio CAVIAR 2005 se logro una precision1
del 87% y un recuerdo en recuperacion2 del 62%, mientras que el metodo HOG-SVM
1precision= V PV P+FP
2recuerdo en recuperacion= V PV P+FN
72 CAPITULO 5. EXPERIMENTOS
Figu
ra5.2:
Com
paracion
del
esquem
adedeteccion
prop
uesto
conel
meto
doHOG-SVM
de[D
T05]
enlas
secuencias
del
conjunto
dedatos
CAVIA
R2005
[CAV05].
Laevalu
aciondel
esquem
aprop
uesto
sepresen
taen
lagrafi
cadela
izquierd
a.Laevalu
aciondel
meto
doHOG-SVM
semuestra
enla
grafica
dela
derech
a.Para
todas
lassecu
encias
deprueba,
elesq
uem
adedeteccion
prop
uesto
lograun
rendim
iento
mayor
queel
meto
doHOG-SVM.
5.2. EVALUACION DEL ESQUEMA DE DETECCION 73
obtuvo una precision del 52% y un recuerdo en recuperacion del 43%. El esquema
de deteccion propuesto supera al metodo HOG-SVM en ambas medidas, de precision y
recuerdo en recuperacion, debido a que los ındices FP y FN obtenidos en este trabajo son
mas bajos que los obtenidos por el metodo HOG-SVM. Estos resultados se alcanzaron
porque la decision de deteccion se realizo a partir del analisis de informacion de un
filtrado de deteccion de forma y de un filtrado de deteccion de movimiento. Ademas,
la metrica de VP del esquema de deteccion propuesto adquirio un valor mucho mas
alto que la del metodo HOG-SVM. Este resultado le permitio al esquema de deteccion
propuesto alcanzar una alta precision en su rendimiento. Esto se logro porque el esquema
de deteccion fue disenado para hacer frente a las oclusiones parciales y para ser tolerante
a los cambios de forma de la silueta de las personas. Por el contrario, aunque el metodo
HOG-SVM considera las variaciones de la pose de las personas, es incapaz de detectarlas
cuando mas del 25% de su silueta esta ocluida.
La figura 5.3 presenta imagenes de ejemplo con los resultados obtenidos por el es-
quema de deteccion de personas propuesto para el conjunto de datos USC 2005 [WN05].
El conjunto de prueba USC 2005 contiene 54 fotogramas con 271 personas, de las cua-
les 75 personas estan parcialmente ocluidas por otros individuos y 18 personas estan
parcialmente visibles porque estan entrando o saliendo del campo de vision la escena.
La figura 5.3(a) muestra que el esquema de deteccion propuesto logra un buen desem-
peno en la deteccion de las personas, incluso cuando estas estan ocluidas parcialmente
en gran proporcion (mas del 50% del area de la silueta de la persona esta ocluida). La
figura 5.3(b) muestra que la region de la silueta delineada, estimada automaticamen-
te a partir de los resultados del esquema de deteccion, es exacta. Algunos segmentos
de borde de la silueta estan desalineados. Esto se genera, principalmente, por el bajo
contraste y/o desorden del fondo en la imagen. La figura 5.3(c) muestra los rectangu-
los delimitadores de los resultados de la deteccion (rectangulos en color azul) y los
rectangulos delimitadores de la deteccion de la verdad absoluta (rectangulos en color
rojo) proporcionados por [LD10] para efectos de comparacion visual.
En el conjunto de datos USC 2005, el esquema de deteccion de personas propuesto
74 CAPITULO 5. EXPERIMENTOS
Figura 5.3: Resultados del esquema de deteccion de personas propuesto para el conjuntode datos USC 2005 [WN05].
alcanzo una exactitud del 84% en la medicion del traslape de los rectangulos delimi-
tadores del resultado obtenido por el detector y el resultado de deteccion de la verdad
absoluta. Observe en la figura 5.3(c) que el esquema de deteccion propuesto es capaz de
detectar objetos en una amplia gama de tamanos. Tambien considere que en la figura
5.3(c) algunas personas que no estan en la deteccion de la verdad absoluta son encon-
tradas por el esquema de deteccion propuesto. Los falsos negativos en la deteccion, es
decir, las personas que no fueron detectadas por el esquema de deteccion propuesto,
principalmente son causados por el bajo contraste entre los segmentos de borde del
objeto y el fondo de la imagen.
5.2. EVALUACION DEL ESQUEMA DE DETECCION 75
El resultado del rendimiento del esquema de deteccion de personas propuesto se
comparo con los resultados reportados por Wu y Nevatia [WN07] y Lin et al. [LD10] en
el conjunto de datos de USC 2005. La figura 5.4 muestra el resultado de la comparacion
del rendimiento como curvas ROC.
0 10 20 30 40 50 60 70 800.75
0.8
0.85
0.9
0.95
1
Número de falsas alarmas
Tas
a de
det
ecci
ón
Curvas ROC de desempeño de detección
Detector propuesto basado en bases activasDetector jerárquico de plantillas de partes [LD10]Detector de partes aprendidas por boosting [WN07]
Figura 5.4: Evaluacion del rendimiento de deteccion para el conjunto de datos USC2005[WN05]. Los resultados de deteccion reportados en los trabajos de [WN07] y [LD10]son tomados con el proposito de comparacion de resultados.
La figura 5.4 muestra que el esquema de deteccion propuesto logra un mejor rendi-
miento de deteccion que los metodos reportados en los trabajo previos de Wu y Nevatia
[WN07] y Lin et al. [LD10] en las imagenes del conjunto de datos USC 2005. Nuestro
esquema alcanza una tasa de deteccion del 93.4% con 16 falsas alarmas. El esquema de
deteccion propuesto alcanzo una alta precision porque fue disenado para hacer frente
a las oclusiones parciales y para ser tolerante a los cambios en la silueta percibida de
las personas. Por otra parte, el ındice de falsas alarmas es bajo porque la decision de
deteccion fue tomada mediante el analisis de la informacion a partir de un filtrado de
deteccion de forma, ası como a partir de un filtrado de deteccion de movimiento.
76 CAPITULO 5. EXPERIMENTOS
5.3. Evaluacion del algoritmo de seguimiento
Las secuencias de prueba empleadas para evaluar el funcionamiento del algorit-
mo de seguimiento en ambientes de interiores y exteriores fueron seleccionadas de los
repositorios CAVIAR 2005 [CAV05], PETS 2009 [PET09] y UCO 2011 [UCO11]. La
descripcion de las secuencias de prueba seleccionadas se presento en el apartado 5.1 de
la tesis. Estas secuencias muestran escenarios reales donde se producen con frecuen-
cia interacciones y oclusiones entre individuos. En las secuencias estan representadas
distintas situaciones complejas de la interaccion en el escenario de un numero variable
de personas. Estas situaciones son, por ejemplo, la deteccion de personas parcialmente
visibles cuando entran o salen del campo de vision de la camara y las oclusiones se-
veras producidas durante intervalos de tiempo prolongados. En algunas secuencias, las
personas llevan ropa con caracterısticas de apariencia similares. Tambien, se presentan
casos de personas que cambian su trayectoria cuando interactuan con otras personas
en el escenario.
La figura 5.5 presenta ejemplos visuales de los resultados del algoritmo de segui-
miento propuesto en la secuencia OneStopMoveEnter1 del conjunto de datos CAVIAR
2005 [CAV05].
La figura 5.6 muestra ejemplos visuales de los resultados del algoritmo de segui-
miento propuesto en la secuencia S2-L1-View 008 del conjunto de datos PETS 2009
[PET09].
La figura 5.7 presenta ejemplos visuales de los resultados del algoritmo de segui-
miento propuesto en la secuencia p3v1view1 del conjunto de datos UCO 2011 [UCO11].
En las figuras 5.5, 5.6 y 5.7, las elipses con estilo de lınea continua representan los
vertices de los objetos rastreados que se enlazan con una medicion de deteccion. Las
elipses con estilo de lınea discontinua representan los vertices de los sucesores predichos
para los objetos que se encuentran ocluidos o que no fueron detectados. Las elipses con
color gris claro representan los vertices que tienen que ser confirmados por una medicion
de deteccion en los fotogramas siguientes. Esta tarea se realiza con la finalidad de asignar
5.3. EVALUACION DEL ALGORITMO DE SEGUIMIENTO 77
Figura
5.5:
Resultad
osdel
algoritm
odeasociaciontemporal
propuesto
enla
secuenciaOneS
topM
oveE
nter1
del
conjunto
dedatos
CAVIA
R2005
[CAV05].
Enesta
secuenciamoderad
amente
pob
lada,
grupos
depersonas
caminan
enconjunto
alo
largodel
corredor.Laoclusion
entrelaspersonas
conID
4eID
6,ylaspersonas
conID
5eID
6,se
resuelve
conexito.
Ladeteccion
oportunadeFP
impidela
correccion
erronea
delastrayectorias
delaspersonas
quecaminan
cerca(fotogramas
5.5(a)
y5.5(e)).
78 CAPITULO 5. EXPERIMENTOS
Figu
ra5.6:
Resu
ltados
del
algoritmodeaso
ciaciontem
poral
prop
uesto
enla
secuencia
S2-L
1-View
008del
conjunto
de
datos
PETS2009
[PET09].
Elsegu
imien
todelas
person
ases
correcto,inclu
socuan
doestan
caminan
docerca
(fotogramas
5.6(a)-5.6(d)).
Laoclu
sionentre
person
ascon
caracterısticassim
ilaresse
resuelve
exitosam
ente
(fotogramas
5.6(c)-5.6(e),ID
4eID
1).Sin
embargo,
laoclu
siontam
bien
produjo
intercam
bios
deidentid
aden
lainteraccion
deperson
ascon
atributos
similares
(fotogramas
5.6(f),ID
4eID
2).Este
tipodeerror
enel
seguim
iento
puedeser
evitad
orealizan
dounmejor
ajuste
enlos
param
etrosqueinterv
ienen
enel
proceso
deaso
ciacionpor
similitu
d.
5.3. EVALUACION DEL ALGORITMO DE SEGUIMIENTO 79
Figura
5.7:
Resultad
osdel
algoritm
odeasociaciontemporal
propuesto
enla
secuenciadep3v1view
1del
conjunto
dedatos
UCO
2011
[UCO11].
Las
interacciones
yla
oclusion
entrelaspersonas
seresuelvenconexito,
incluso
cuan
dohay
cambiosen
lailuminaciondel
escenario.Elalgoritm
opropuesto
tambienpuederastrear
objetivosconvisibilidad
parcial
(fotogramas
5.7(d)-5.7(f)).
El
rastreocontinuodelosob
jetosen
estassituaciones
esposible
graciasala
robustez
enla
actualizaciondelosatributosde
laspersonas.
80 CAPITULO 5. EXPERIMENTOS
una identidad para los nuevos objetivos a rastrear, o bien, para detectar las trayectorias
que fueron generadas por falsos positivos en las mediciones de deteccion.
En la figura 5.5, los FP son detectados diferidamente y el rastreo de estos objetivos
termina de manera inmediata (fotogramas 5.5(a) y 5.5(e)). Los FN son manejados
aceptablemente por el algoritmo mediante la generacion de hipotesis de trayectorias
que mantienen la direccion y velocidad de los objetos rastreados (fotogramas 5.5(b), ID
4 e ID 7). La oclusion entre las personas con ID 5 e ID 6 es resuelta con exito como se
expone en los fotogramas 5.5(d), 5.5(e) y 5.5(f). La oclusion entre las personas con ID
4 e ID 6 tambien se resuelve exitosamente como se presenta en los fotogramas 5.5(b)
y 5.5(d). En el fotograma 5.5(c) se inicializo una trayectoria para la medicion con ID
-14. Esta medicion no fue asociada con la trayectoria estimada de la persona con ID 4
debido a que se presentaron variaciones significativas en sus atributos. Sin embargo, una
de las hipotesis construidas para la persona con ID 4 al inicio de la oclusion permitio su
seguimiento correcto en el fotograma 5.5(d).
En la figura 5.6, grupos de personas con atributos similares de apariencia se observan
caminando con la misma direccion y velocidad (ID 3, ID 5 e ID 6). El seguimiento de
estas personas se efectua de manera correcta, incluso cuando ellas estan caminando muy
cerca y hay mediciones faltantes de personas (fotogramas 4(a)-4(c)). Las situaciones
complejas de interacciones y oclusiones entre las personas con ID 1 e ID 2 se resuelven
correctamente (fotogramas 4(b) y 4(c)). La oclusion de la persona con ID 1, quien
permanece inmovil durante el evento, es manejada correctamente por el algoritmo,
incluso cuando su oclusor con ID 4 tiene caracterısticas similares (fotogramas 5.6(d)
y 5.6(e)). La oclusion entre las personas con ID 4 e ID 2 intercambia sus identidades
durante el evento. Esto sucedio porque la posicion de estas personas es muy cercana y
porque tienen atributos de apariencia y tamano muy similares. Para que el algoritmo
de seguimiento propuesto maneje correctamente la asociacion de las identidades de
las personas en estas condiciones, se requiere un mejor ajuste de los parametros en el
proceso de asociacion por similitud.
En la figura 5.7 ocurren frecuentemente oclusiones parciales y totales entre los indi-
5.3. EVALUACION DEL ALGORITMO DE SEGUIMIENTO 81
viduos. La persona con ID 1 mantiene su identidad a pesar de ser ocluida una y otra vez
por otras personas en la escena. La persona con ID 2 mantiene su identidad mientras
hay cambios en su tamano. La persona con ID 3 es rastreada correctamente a pesar de
que sus atributos de apariencia varıan debido a la visibilidad parcial de su cuerpo y a
los cambios en la iluminacion del escenario. El seguimiento correcto de los objetos en
estas situaciones es posible debido a la robustez del algoritmo en la actualizacion de los
atributos de las personas.
En la tabla 5.1 se definen los parametros del algoritmo de asociacion temporal y se
dan recomendaciones para efectuar su configuracion en las secuencias de prueba.
La tabla 5.2 presenta las metricas utilizadas para evaluar cuantitativamente el algo-
ritmo de seguimiento. Estas metricas se adoptaron del trabajo de [SJSRC10]. La tabla
5.3 muestra la comparacion del algoritmo propuesto con algunos de los algoritmos pre-
sentados en la revision del trabajo previo para el conjunto de datos de [CAV05]. La tabla
5.4 presenta la evaluacion del algoritmo de seguimiento propuesto usando las secuencias
de referencia CAVIAR 2005 [CAV05], PETS 2009 [PET09] y UCO 2011 [UCO11].
El manejo adecuado de las hipotesis de trayectorias permitio que el algoritmo de
seguimiento propuesto produjera un rastreo continuo y estable de las personas cuando
hay falsos negativos en las mediciones de deteccion, ası como eventos de oclusion. Esta
cualidad es ilustrada en las tablas de resultados 5.3 y 5.4 a traves de los indicadores de
evaluacion MT y PT que miden la integridad del seguimiento. Los ındices Frag e IDS son
errores que representan la falta de continuidad en las trayectorias. En la evaluacion del
algoritmo de seguimiento propuesto estos ındices son pequenos en todas las secuencias
de referencia. Esto sucedio porque los atributos de las personas los describieron a detalle,
y tambien porque el algoritmo de asociacion temporal fue disenado para ser robusto
ante interacciones y oclusiones entre personas.
En comparacion con los algoritmos del trabajo previo, el algoritmo de seguimiento
propuesto en este trabajo se desempena adecuadamente, sobre todo si consideramos que
esta basado en las mediciones de deteccion, contrario a los algoritmos propuestos por
[ZLN08] y [SJSRC10] que estan basados en la asociacion de fragmentos de trayectorias.
82 CAPITULO 5. EXPERIMENTOS
El algoritmo de asociacion temporal alcanzo una precision del 93%. Los experimen-
tos demuestran que el algoritmo de asociacion temporal es eficaz para el seguimiento de
varias personas en escenarios donde hay condiciones de iluminacion variable y no exis-
ten restricciones acerca de la ropa y del movimiento de los individuos que interactuan.
En terminos generales, el algoritmo de asociacion temporal se desempena con exito
durante situaciones de interaccion y oclusion, tales como: 1) personas que caminan en
direcciones opuestas durante las oclusiones, 2) personas que caminan en pareja hacia el
mismo destino y 3) personas que permanecen inmoviles durante una oclusion durante
un perıodo de tiempo prolongado.
5.4. Tiempos de procesamiento de los algoritmos
La implementacion de los algoritmos propuestos se realizo en Matlab 8.0 empleando
una arquitectura de 64 bits. Los experimentos se realizaron en una computadora con
procesador Intel i7 a 2.2 GHz y memoria RAM de 8 GB. En esta configuracion, el es-
quema de deteccion de personas procesa 5 FPS (fotogramas por segundo), en promedio,
para las secuencias de prueba. Mientras que el algoritmo de asociacion temporal procesa
15 FPS, en promedio, para las secuencias de prueba. Ambas tasas de procesamiento
son estimadas sin considerar el registro de lectura de las imagenes de las secuencias y
la impresion en pantalla de los resultados obtenidos. El esquema de deteccion no con-
sidera el tiempo de entrenamiento del modelo de silueta ni el tiempo del modelado del
fondo. Por otro lado, el seguimiento no considera el tiempo invertido en la deteccion de
personas.
5.5. Discusion
En este apartado se discuten los resultados obtenidos por el esquema de deteccion
y el algoritmo de asociacion temporal propuestos. El esquema de deteccion logro una
precision del 87% para los conjuntos de datos CAVIAR 2005 y una precision del 93.4%
5.5. DISCUSION 83
para los conjuntos de datos USC 2005 [WN05]. El valor alto de la metrica de precision
se debe, principalmente, a que el esquema de deteccion fue disenado especialmente para
encontrar personas ocluidas y en distintas poses.
El desempeno del esquema de deteccion es mucho mejor que el desempeno del meto-
do de SVM-HOG [DT05], como se mostro en la figura 5.2. El desempeno del esquema de
deteccion es comparable (ligeramente superior) al desempeno obtenido por los metodos
de deteccion de Wu y Nevatia [WN07] y Lin et. al [LD10]. La ventaja que presenta
nuestro esquema de deteccion, con respecto a estos metodos, es que no requiere de la
fragmentacion de las partes del cuerpo de las siluetas de las personas. En nuestro tra-
bajo de tesis, los resultados de cualquiera de estos detectores pudieron proporcionar las
mediciones de deteccion requeridas por el algoritmo de asociacion temporal propuesto.
Sin embargo, debido a la falta de acceso a los resultados de deteccion del trabajo previo,
el diseno de un esquema de deteccion fue requerido para evaluar el funcionamiento del
algoritmo de asociacion temporal propuesto. La calidad de los resultados de la detec-
cion es buena, pues se alcanzo un 84% en la exactitud de los rectangulos delimitadores
de los resultados obtenidos por el detector y los resultados de deteccion de la verdad
absoluta. Esta medida pudo verse afectada por el bajo contraste entre los bordes de la
imagen y las oclusiones entre las personas. La limitacion que presenta el esquema de
deteccion es que en promedio procesa 5 FPS. Este tiempo de procesamiento puede dis-
minuir si el rango de tamano de los objetos a buscar en la escena se reduce, puesto que
se tendrıa una menor cantidad de imagenes en distintas escalas para analizar. Tambien,
puede reducirse si se implementa en paralelo la busqueda de los objetos en el esquema
de deteccion.
El algoritmo de asociacion temporal fue probado usando mediciones proporciona-
das por el esquema de deteccion de personas propuesto. Nuestro algoritmo de asocia-
cion alcanzo una precision global del 93% en las secuencias de referencia de CAVIAR
2005 [CAV05], PETS 2009 [PET09] y UCO 2011 [UCO11]. El algoritmo de asociacion
logro una alta precision porque fue disenado para reducir los errores en el rastreo de
multiples personas ocasionados por los falsos positivos y los falsos negativos en las
84 CAPITULO 5. EXPERIMENTOS
mediciones de deteccion, ası como las oclusiones. En las secuencias de prueba se de-
mostro que el algoritmo propuesto produce el seguimiento robusto de personas ocluidas
parcial y totalmente. En las secuencias de CAVIAR 2005 se demostro que el algoritmo
propuesto, basado en detecciones, obtiene una mejor precision que los metodos del tra-
bajo previo de [ZLN08] y [SJSRC10]. En la tabla 5.3 de comparacion de resultados, las
secuencias de prueba tienen diferente valor en GT porque se realizaron en un mayor
numero de secuencias. Nuestros experimentos se realizaron en 7 secuencias del reposi-
torio de CAVIAR 2005. Estas secuencias son las mas complicadas ya que presentan una
mayor cantidad de situaciones con oclusiones. De modo que, aunque el numero de GT
sea diferente, los resultados pueden ser comparados de manera cuantitativa. La ventaja
del algoritmo de asociacion propuesto es que, al analizar las relaciones entre las trayec-
torias de los objetos rastreados, permite el manejo de falsos positivos y falsos negativos
en las mediciones de deteccion y la estimacion de la ubicacion de las personas que son
ocluidas. La limitacion que presenta el algoritmo de asociacion es que, en promedio,
procesa 15 FPS. La calidad de los resultados visuales es buena, pues la actualizacion
de los modelos de las personas permite realizar el seguimiento durante las oclusiones
entre las personas.
5.6. Resumen
En este capıtulo se presentaron los resultados obtenidos por el esquema de detec-
cion de personas y el algoritmo de asociacion temporal en secuencias de imagenes con
personas en escenarios estacionarios no controlados. En la seccion 5.1 se describieron
las secuencias de prueba que permiten la validacion de los algoritmos propuestos. En
la seccion 5.2 se presento la evaluacion del esquema de deteccion y su comparacion
con los resultados obtenidos por trabajos previos. El esquema de deteccion de personas
alcanzo una precision del 87% en las secuencias de prueba del repositorio CAVIAR
2005 [CAV05]. El esquema de deteccion de personas logro una precision del 93.4%
en el conjunto de datos USC 2005 [WN05]. Estos resultados superan a los alcanzados
5.6. RESUMEN 85
por los metodos del trabajo previo de [DT05], [WN07] y [LD10] . En la seccion 5.3
se presento la evaluacion del algoritmo de asociacion temporal y su comparacion con
los resultados obtenidos por trabajos previos. El algoritmo de asociacion temporal pro-
puesto alcanzo una precision global del 93% en las secuencias de los repositorios de
evaluacion CAVIAR 2005 [CAV05], PETS 2009 [PET09] y UCO 2011 [UCO11]. En las
secuencias de prueba del repositorio CAVIAR 2005, el algoritmo de asociacion temporal
propuesto obtuvo una precision del 88.9%, superando los resultados obtenidos por los
algoritmos del trabajo previo de [ZLN08] y [SJSRC10]. En la seccion 5.4 se presentaron
los tiempos de procesamiento del esquema de deteccion de personas y del algoritmo
de asociacion temporal. La seccion 5.5 presento la discusion de los resultados obteni-
dos en el esquema de deteccion de personas y en el algoritmo de asociacion temporal
propuestos en la tesis.
En el capıtulo 6 se presentan las conclusiones, las contribuciones, el trabajo futuro
propuesto y los artıculos derivados de este trabajo de investigacion.
Tabla 5.1: Definicion de los parametros del algoritmo de asociacion temporal.
Parametro Definicionµρ Parametro de apariencia establecido en el proceso de asociacion por
similitud. El valor del parametro µρ puede variar entre 0 y 1, perose recomienda configurar el valor de µρ entre 0.2 y 0.4. El valor deeste parametro determina la medida en que difieren los histogramasde color del objeto rastreado y la medicion de deteccion del objeto.Esta medida es robusta a cambios en el tamano de los objetos. Enlas secuencias de prueba se establecio el valor del parametro µρ en 0.3para que los histogramas de color del objeto rastreado y de la medicionde deteccion coincidan en al menos 70%.
µg Parametro del area de validacion establecido en el proceso de asocia-cion por similitud. El parametro µg representa el numero de pıxelesque la medicion puede alejarse del area de prediccion. Este parametroindica cuales mediciones de deteccion pueden ser asociadas a la predic-cion del objeto rastreado. Un valor en pıxeles muy pequeno requiere deuna prediccion muy precisa para realizar la asociacion, mientras queun valor grande permitira el acceso a mediciones alejadas que puedencorresponder a otros objetos rastreados. En las secuencias de prueba,el valor de este parametro se establecio entre 20 y 40. Como valorinicial del ajuste del parametro se considera el tamano promedio, enpıxeles, del ancho de los objetos detectados en la escena. Otra formade configurar el valor inicial del parametro es usando de una a dosveces el valor de la varianza del error asociado al filtro de movimiento.
m Parametro que establece el numero de fotogramas requeridos para laeliminacion de las hipotesis del grafo de seguimiento. El parametrom permite mantener las hipotesis de trayectorias que han sido crea-das para el seguimiento de objetos existentes y falsas mediciones dedeteccion. En las secuencias de prueba, el valor de este parametro seubico entre 10 y 48. Un valor pequeno requiere que la deteccion depersonas sea muy precisa para que no se fragmenten las trayectoriasde los objetos rastreados, mientras que un valor grande puede originarque los modelos de las personas se actualicen incorrectamente duran-te el seguimiento de las personas. Como valor inicial del ajuste delparametro se recomienda asignar un valor entre un tercio y el dobledel valor de FPS de la secuencia de prueba.
λ Parametro que establece el porcentaje de traslape entre prediccionesde objetos. Este parametro permite detectar una posible oclusion entreobjetos. El valor del parametro puede variar entre 0.1 y 1. En lassecuencias de prueba, para evitar oclusiones ligeras entre prediccionesruidosas y permitir la captura de objetos con visibilidad parcial antesde presenciar eventos de oclusion total, el parametro λ adquirio unvalor de 0.2.
5.6. RESUMEN 87
Tabla 5.2: Metricas de evaluacion para el seguimiento de objetos.
Nombre de la metrica DefinicionGT (Ground Truth) Numero de trayectorias verdaderas.MT (Mostly Tracked) Porcentaje de trayectorias GT que son rastreadas co-
rrectamente por el algoritmo de seguimiento por masdel 80% del tiempo.
PT (Partially Tracked) Porcentaje de trayectorias GT que son rastreadas porel algoritmo de seguimiento entre el 20% y el 80% deltiempo.
ML (Mostly Lost) Porcentaje de trayectorias GT que son rastreadas por elalgoritmo de seguimiento por menos del 20% del tiempo.
Frag (Fragments) Numero total de veces que la persona rastreada cambiasu ID a lo largo de la trayectoria GT.
IDS (ID Switches) Numero total de veces que una persona rastreada cambiasu ID con otro objeto.
Tabla 5.3: Comparacion de los algoritmos de seguimiento para el conjunto de datosCAVIAR 2005 [CAV05].
Ref. GT MT PT ML Frag IDSZhang et al. 2008 [ZLN08] 140 85.7% 10.7% 3.6% 20* 15*Wu et al. 2007 [WN07] 140 75.7% 17.9% 6.4% 35* 17*Song et al. 2010 [SJSRC10] 75 84% 12% 4% 6 8Filtro de partıculas [SJSRC10] 75 53.3% 36% 10.7% 15 19Grafo de seguimiento propuesto 72 88.9% 11.1% 0% 21 6*El numero de fragmentos y los cambios de identidad fueron obtenidos mediante las metricas
tradicionales. Las metricas que adoptamos son mas estrictas.
Tabla 5.4: Evaluacion del algoritmo de seguimiento propuesto en distintos conjuntos dedatos de videovigilancia.
Ref. GT MT PT ML Frag IDSCAVIAR 2005 72 88.9% 11.1% 0% 21 6UCO 2011 101 97% 3% 0% 28 6PETS 2009 111 93.7% 5.4% 0.9% 17 5
88 CAPITULO 5. EXPERIMENTOS
Capıtulo 6
Conclusiones
6.1. Conclusiones
Esta tesis abordo el problema de seguimiento de multiples personas en escenarios no
controlados. En este trabajo se propuso una solucion al problema de la oclusion parcial
y total a partir del analisis de la informacion visual adquirida por una camara.
El algoritmo de asociacion temporal propuesto construye un grafo de seguimiento
para modelar los atributos de apariencia, forma y movimiento de las personas rastrea-
das, ası como las interacciones entre estas. El algoritmo asocia a las personas detectadas
en el fotograma actual con las trayectorias disponibles de las personas rastreadas. Esto
se realiza mediante un proceso de asociacion por similitud, basado en caracterısticas
de apariencia y movimiento espacial, y de la cercanıa de ubicacion. El algoritmo anali-
za las relaciones espacio-temporales entre las trayectorias representadas en el grafo de
seguimiento con la finalidad de manejar informacion incorrecta o faltante en la etapa
de deteccion. El algoritmo permite la prediccion de las oclusiones parciales y totales,
y la estimacion de la ubicacion de las personas que han estado ocluidas durante un
perıodo de tiempo. El algoritmo propuesto es robusto a las variaciones en la apariencia
de la vestimenta de las personas, a los cambios en su tamano y movimiento, ası como
a eventos de oclusion parcial y total. Esto sucede debido a que la actualizacion de los
89
90 CAPITULO 6. CONCLUSIONES
atributos de las personas se realiza en funcion de como interactuan estas en la escena
y de como participan en los eventos de oclusion.
El algoritmo fue probado usando mediciones proporcionadas por el esquema de
deteccion de personas propuesto. En las secuencias de referencia de CAVIAR 2005
[CAV05], PETS 2009 [PET09] y UCO 2011 [UCO11], el algoritmo de asociacion tem-
poral propuesto alcanzo una precision del 93%. En estas secuencias de referencia se
demostro que el algoritmo propuesto produce el seguimiento robusto de personas oclui-
das parcial y totalmente, incluso cuando las personas estan ocluidas durante perıodos
de tiempo prolongados. En las secuencias de CAVIAR 2005 se demostro que el algorit-
mo propuesto basado en detecciones supera incluso a los algoritmos del trabajo previo
basados en trayectorias.
Sin embargo, el algoritmo de seguimiento presenta limitaciones. Una limitacion del
algoritmo de seguimiento es causada por la resolucion de la camara. Aunque el algorit-
mo permite manejar un rango amplio para el tamano de los objetos en la imagen, el
tamano mınimo permitido para detectar a las personas en la escena es de 50x24 pıxeles.
Otra limitacion es que el algoritmo propuesto no puede rastrear correctamente a per-
sonas en escenarios con insuficiente iluminacion, pues la ausencia de diversidad en las
distribuciones de color de los modelos de apariencia de los objetos provocarıa errores
de rastreo, como fragmentacion e intercambios de identidad. Ademas, el algoritmo de
seguimiento no puede realizar el seguimiento de las personas cuando estas entran a la
escena y son ocluidas por otras personas. El algoritmo considera esta situacion como rui-
do en la deteccion de las personas. El rastreo de las personas iniciara cuando disminuya
el porcentaje de oclusion y aumente el valor de la respuesta de deteccion. Finalmente,
el algoritmo propuesto tampoco permite que la persona cambie su vestimenta una vez
que se inicio con su seguimiento.
6.2. CONTRIBUCIONES 91
6.2. Contribuciones
Las contribuciones mas destacadas de nuestro trabajo de investigacion son las si-
guientes:
Un algoritmo de asociacion temporal que construye un grafo de seguimiento para
modelar a las personas en la escena a partir de reglas de interaccion y de medicio-
nes de deteccion (apartado 4.3.3). Las reglas de interaccion controlan la entrada
y salida de las personas en la escena, vinculan las mediciones de deteccion con
las personas previamente rastreadas y dirigen el seguimiento de estas cuando se
encuentran ocluidas mediante el manejo de multiples hipotesis de seguimiento. El
algoritmo de asociacion temporal propuesto es capaz de detectar falsos positivos
y falsos negativos en las mediciones de deteccion, y tambien puede estimar la
ubicacion de personas no detectadas u ocluidas.
Un modelo de la interaccion de las personas que predice oclusiones parciales y
totales y establece el orden de las personas implicadas en la oclusion (apartado
4.3.4). Este modelo considera la alineacion global de la forma del objeto, su visi-
bilidad en la imagen y su ordenamiento previo. El ordenamiento espacial de las
personas que interactuan es crucial para mantener distintas hipotesis del segui-
miento de las mismas y actualizar correctamente los atributos de las personas
durante las interacciones entre estas.
Las aportaciones adicionales de nuestro trabajo son las siguientes:
Un esquema de deteccion basado en un modelo de la silueta humana capaz de
encontrar a individuos parcialmente ocluidos (apartado 4.1). El esquema de detec-
cion propuesto permite encontrar siluetas de personas cuya area en movimiento
sea superior al 30% del area de la silueta. A diferencia de los trabajos previos
de [WN07] y [LD10], nuestro esquema de deteccion encuentra la silueta de las
personas con oclusion sin requerir de la fragmentacion de las partes del cuerpo.
92 CAPITULO 6. CONCLUSIONES
Ademas, permite la deteccion de personas con oclusion en cualquier parte del cuer-
po: piernas, cabeza, lado derecho, etc.; y tolera cambios en la silueta permitiendo
la deteccion de personas en pose frontal y lateral.
Una representacion de la persona capaz de adaptarse a cambios en la iluminacion
del ambiente y robusta a oclusiones parciales y cambios en el movimiento de los
objetos (apartado 4.2). Aunque en trabajos previos se han empleado multiples
atributos para efectuar el rastreo de multiples objetos, los modelos de forma,
apariencia y movimiento propuestos en esta tesis no se habıan utilizando conjun-
tamente. La representacion propuesta es adecuada para mantener el seguimiento
de multiples personas en la escena, pues la actualizacion de los modelos de las
personas se realiza en funcion de como interactuan estas en la escena y de como
participan en los eventos de oclusion.
Un metodo de asociacion por similitud que compara las mediciones de deteccion
con las trayectorias disponibles de personas, basado en la similitud de la apariencia
y el movimiento espacial y en la cercanıa de la ubicacion de los objetos (apartado
4.3.5). La asociacion de las multiples identidades es crıtica cuando el seguimiento
de personas se plantea en 2D, ya que esta es determinante para el rastreo de las
personas.
En distintas secuencias de prueba enfocadas al ambito de la vigilancia inteligente se
demostro que el metodo propuesto es robusto en el seguimiento de multiples individuos
en escenarios con distintos eventos de interaccion y oclusiones entre personas.
6.3. TRABAJO FUTURO 93
6.3. Trabajo futuro
En esta investigacion abordamos el problema de seguimiento de personas y propu-
simos un metodo que soluciona el problema de oclusion. Sin embargo, la adaptacion
del metodo propuesto para su aplicacion en sistemas automaticos de video vigilancia
requiere de mas investigacion cientıfica.
Como trabajo futuro se proponen las siguientes lıneas de investigacion:
1. Aplicar el metodo propuesto a secuencias de imagenes con personas capturadas
mediante una camara en movimiento. Inicialmente, puede usarse una camara pan-
tilt, la cual permite movimientos en el plano vertical y en el plano horizontal. Esta
tarea requiere que el modelo de fondo se adapte al movimiento de la escena. Tam-
bien, involucra un razonamiento que permita reevaluar la posicion de los objetos
rastreados y la interaccion de estos a partir de la nueva informacion disponible.
2. Adecuar el metodo propuesto para realizar el seguimiento de multiples objetos
en secuencias de imagenes que contengan objetos de distintas clases, por ejemplo:
personas, vehıculos, maletas, etc. Esta tarea requiere de la adaptacion del esquema
de deteccion para que reconozca un objeto entre los distintos tipos. Se requiere
definir la representacion mas adecuada para cada tipo de objeto. Tambien, se
requiere adaptar las reglas de interaccion y las metricas de similitud para manejar
apropiadamente la interaccion de los objetos con objetos diferente clase.
3. Adaptar el metodo propuesto para realizar el seguimiento de personas utilizando
secuencias de prueba con distintas fuentes de iluminacion. Por ejemplo, las se-
cuencias filmadas durante la noche con luz artificial producen sombras que son
difıciles de manejar. Esta tarea requiere actualizar el modelo del fondo y mejorar
la representacion y la actualizacion del atributo de apariencia de las personas.
94 CAPITULO 6. CONCLUSIONES
6.4. Artıculos de investigacion
Los artıculos de investigacion derivados de la tesis son:
[RAGMC13] C. Reta, L. Altamirano, J. A Gonzalez, and R. Medina-Carnicer.
Occlusion model from human interaction analysis for tracking mul-
tiple people. IASTED International Conference on Signal Proces-
sing, Pattern Recognition and Applications, 2013.
[RAGMC14a] C. Reta, L. Altamirano, J. A Gonzalez, and R. Medina-Carnicer.
Association algorithm to track multiple people under complex si-
tuations and occlusion. Submitted to IET Computer Vision, 2014.
[RAGMC14b] C. Reta, L. Altamirano, J. A Gonzalez, and R. Medina-Carnicer.
Three hypothesis algorithm with occlusion reasoning for multiple
people tracking. Submitted to Journal of Electronic Imaging, 2014.
Bibliografıa
[AA06] M. Antenreiter and P. Auer. A reasoning system to track movements
of totally occluded objects. In European Conference on Computer
Vision, 2006.
[ARS08] M. Andriluka, S. Roth, and B. Schiele. People-tracking-by-detection
and people-detection-by-tracking. In Computer Vision and Pattern
Recognition, pages 1–8, 2008.
[BAT11] W. Brendel, M. Amer, and S. Todorovic. Multiobject tracking as
maximum weight independent set. In Computer Vision and Pattern
Recognition, pages 1273–1280, 2011.
[BELR10] Y. Benezeth, B. Emile, H. Laurent, and C. Rosenberger. Vision-
based system for human detection and tracking in indoor environ-
ment. International Journal of Social Robotics, 2(1):41–52, 2010.
[Bla04] S. S. Blackman. Multiple hypothesis tracking for multiple target
tracking. Aerospace and Electronic Systems Magazine, 19(1):5–18,
2004.
[BS87] Y. Bar-Shalom. Tracking and data association. Academic Press
Professional, Inc., San Diego, CA, USA, 1987.
[CAV05] CAVIAR. Context aware vision using image-based
active recognition benchmark data. EC Funded
95
96 BIBLIOGRAFIA
CAVIAR project/IST 2001 37540 found at URL:
http://groups.inf.ed.ac.uk/vision/CAVIAR/CAVIARDATA1/,
accessed June 2014, 2005.
[Col12] R. T. Collins. Multitarget data association with higher-order motion
models. In Computer Vision and Pattern Recognition, pages 1744–
1751, 2012.
[DT05] N. Dalal and B. Triggs. Histograms of oriented gradients for human
detection. In Computer Vision and Pattern Recognition, volume 1,
pages 886–893, 2005.
[ED01] A. M. Elgammal and L. S. Davis. Probabilistic framework for seg-
menting people under occlusion. In International Conference on
Computer Vision, volume 2, pages 145–152, 2001.
[FV06] L. M. Fuentes and S. A. Velastin. People tracking in surveillance
applications. Image and Vision Computing, 24(11):1165–1171, 2006.
[GVPG03] P. F. Gabriel, J. G. Verly, J. H. Piater, and A. Genon. The sta-
te of the art in multiple object tracking under occlusion in video
sequences. In Advanced Concepts for Intelligent Vision Systems, pa-
ges 166–173, 2003.
[HHT04] M. Hu, W. Hu, and T. Tan. Tracking people through occlusions. In
International Conference on Pattern Recognition, volume 2, pages
724–727, 2004.
[HTWM04] W. Hu, T. Tan, L. Wang, and S. Maybank. A survey on visual
surveillance of object motion and behaviors. Systems, Man and Cy-
bernetics, 34:334–352, 2004.
[HXTG07] M. Han, W. Xu, H. Tao, and Y. Gong. Multi-object trajectory
tracking. Machine Vision and Applications, 18(3):221–232, 2007.
BIBLIOGRAFIA 97
[HZHM09] W. Hu, X. Zhou, M. Hu, and S. Maybank. Occlusion reasoning for
tracking multiple people. Circuits and Systems for Video Technology,
19(1):114–121, 2009.
[Kal60] R. Kalman. A new approach to linear filtering and prediction pro-
blems. Journal of Basic Engineering, 82(1):35–45, 1960.
[KPB+05] R. Kaucic, A. G. A. Perera, G. Brooksby, J. Kaufhold, and A. Hoogs.
A unified framework for tracking through occlusions and across sen-
sor gaps. In Computer Vision and Pattern Recognition, volume 1,
pages 990–997, 2005.
[KS00] S. Khan and M. Shah. Tracking people in presence of occlusion. In
Asian Conference on Computer Vision, volume 5, pages 1132–1137,
2000.
[KS09] S. M. Khan and M. Shah. Tracking multiple occluding people by
localizing on multiple scene planes. Pattern Analysis and Machine
Intelligence, 31(3):505–519, 2009.
[Kuh05] HW Kuhn. The hungarian method for the assignment problem.
Naval Research Logistics, 52(1):7–21, 2005.
[LD10] Z. Lin and L. S Davis. Shape-based human detection and segmenta-
tion via hierarchical part-template matching. Pattern Analysis and
Machine Intelligence, 32(4):604–618, 2010.
[LTL+09] J. Liu, X. Tong, W. Li, T. Wang, Y. Zhang, and H. Wang. Automatic
player detection, labeling and tracking in broadcast soccer video.
Pattern Recognition Letters, 30(2):103–113, 2009.
[MPMMMM10] J. Mendez-Polanco, A. Munoz-Melendez, and E. Morales-
Manzanares. Detection of multiple people by a mobile robot in
98 BIBLIOGRAFIA
dynamic indoor environments. In Advances in Artificial Intelligence–
IBERAMIA 2010, pages 522–531, 2010.
[MSMCMCCP09] R. Munoz-Salinas, R. Medina-Carnicer, F. J. Madrid-Cuevas, and
A. Carmona-Poyato. Multi-camera people tracking using evidential
filters. International Journal of Approximate Reasoning, 50(5):732–
749, 2009.
[Mun57] James Munkres. Algorithms for the assignment and transportation
problems. Journal of the Society for Industrial & Applied Mathema-
tics, 5(1):32–38, 1957.
[MYC09] Y. Ma, Q. Yu, and I. Cohen. Target tracking with incomplete detec-
tion. Computer Vision and Image Understanding, 113(4):580–587,
2009.
[Ots79] N. Otsu. A threshold selection method from gray-level histograms.
Systems, Man and Cybernetics, 9(1):62–66, 1979.
[PET09] PETS. Performance evaluation of tracking and survei-
llance benchmark data. Reading University, UK. in con-
junction with IEEE Computer Society found at URL:
http://www.cvg.rdg.ac.uk/PETS2009/a.html, accessed June 2014,
2009.
[RAGMC13] C. Reta, L. Altamirano, J. A Gonzalez, and R. Medina-Carnicer. Oc-
clusion model from human interaction analysis for tracking multiple
people. In IASTED International Conference on Signal Processing,
Pattern Recognition and Applications, 2013.
[RAGMC14a] C. Reta, L. Altamirano, J. A Gonzalez, and R. Medina-Carnicer.
Association algorithm to track multiple people under complex situa-
tions and occlusion. Submitted to IET Computer Vision, 2014.
BIBLIOGRAFIA 99
[RAGMC14b] C. Reta, L. Altamirano, J. A Gonzalez, and R. Medina-Carnicer.
Three hypothesis algorithm with occlusion reasoning for multiple
people tracking. Submitted to Journal of Electronic Imaging, 2014.
[RNCS09] J. Ryu, Y. Nam, W. D. Cho, and M. Stanacevic. Camera place-
ment for minimizing occlusion in object tracking systems. Journal
of Ubiquitous Convergence Technology, 3(1):13–19, 2009.
[SHT+02] A. Senior, A. Hampapur, Y. L. Tian, L. Brown, S. Pankanti, and
R. Bolle. Tracking people with probabilistic appearance models. In
Performance Evaluation of Tracking and Surveillance Systems, pages
48–55, 2002.
[SHT+06] A. Senior, A. Hampapur, Y. L. Tian, L. Brown, S. Pankanti, and
R. Bolle. Appearance models for occlusion handling. Image and
Vision Computing, 24(11):1233–1243, 2006.
[SJSRC10] B. Song, T. Y. Jeng, E. Staudt, and A. Roy-Chowdhury. A stochas-
tic graph evolution framework for robust multi-target tracking. In
European Conference on Computer Vision, pages 605–619, 2010.
[SNC09] J. Sullivan, P. Nillius, and S. Carlsson. Multi-target tracking on a
large scale: Experiences from football player tracking. In Proceedings
of the IEEE ICRA 2009 workshop on people detection and tracking,
2009.
[UCL11] UCLA. Dataset of people images. UCLA
Department of Statistics. Found at URL:
http://www.stat.ucla.edu/∼ywu/AB/people200clusterRRCode.zip,
accessed June 2014, 2011.
[UCO11] UCO. Multi-camera pedestrian videos data set. Aplicaciones de la
Vision Artificial (AVA) group. University of Cordoba, Spain, 2011.
100 BIBLIOGRAFIA
[VGC11] R. Vezzani, C. Grana, and R. Cucchiara. Probabilistic people trac-
king with appearance models and occlusion classification: The ad-
hoc system. Pattern Recognition Letters, 32(6):867–877, 2011.
[WN05] B. Wu and R. Nevatia. Detection of multiple, partially occluded
humans in a single image by bayesian combination of edgelet part
detectors. In International Conference on Computer Vision, volu-
me 1, pages 90–97, 2005.
[WN07] B. Wu and R. Nevatia. Detection and tracking of multiple, partially
occluded humans by bayesian combination of edgelet based part de-
tectors. International Journal of Computer Vision, 75(2):247–266,
2007.
[WN09] B. Wu and R. Nevatia. Detection and segmentation of multiple, par-
tially occluded objects by grouping, merging, assigning part detec-
tion responses. International journal of computer vision, 82(2):185–
204, 2009.
[WPZZ10] M. Wu, X. Peng, Q. Zhang, and R. Zhao. Patches-based markov
random field model for multiple object tracking under occlusion.
Signal Processing, 90(5):1518–1529, 2010.
[WSGZ10] Y. N. Wu, Z. Si, H. Gong, and S. C. Zhu. Learning active basis
model for object detection and recognition. International Journal of
Computer Vision, pages 198–235, 2010.
[WYXY09] Z. Wang, X. Yang, Y. Xu, and S. Yu. Camshift guided particle filter
for visual tracking. Pattern Recognition Letters, 30(4):407–413, 2009.
[YCHC10] H. H. Yeh, J. Y. Chen, C. R. Huang, and C. S. Chen. An adap-
tive approach for overlapping people tracking based on foreground
BIBLIOGRAFIA 101
silhouettes. In International Conference on Image Processing, pages
3489–3492, 2010.
[YJS06] A. Yilmaz, O. Javed, and M. Shah. Object tracking: A survey. ACM
Computing Surveys, 38(4):13, 2006.
[YN12] B. Yang and R. Nevatia. An online learned CRF model for multi-
target tracking. In Computer Vision and Pattern Recognition, pages
2034–2041, 2012.
[YO07] J. Yao and J. M. Odobez. Multi-layer background subtraction based
on color and texture. In Computer Vision and Pattern Recognition,
pages 1–8, 2007.
[ZLN08] L. Zhang, Y. Li, and R. Nevatia. Global data association for multi-
object tracking using network flows. In Computer Vision and Pattern
Recognition, pages 1–8, 2008.
[ZTJ07] B. Zhang, W. Tian, and Z. Jin. Efficient hybrid appearance model
for object tracking with occlusion handling. Optical Engineering,
46(8), 2007.
[ZYS09] H. Zhou, Y. Yuan, and C. Shi. Object tracking using SIFT fea-
tures and mean shift. Computer Vision and Image Understanding,
113(3):345–352, 2009.
[ZZS08] Lin Zhu, Jie Zhou, and Jingyan Song. Tracking multiple objects th-
rough occlusion with online sampling and position estimation. Pat-
tern Recogn., 41(8):2447–2460, 2008.