You are on page 1of 6

Resumen La esqueletizacin pretende obtener de la imagen,

un patrn continuo que contenga la menor cantidad datos


posibles, pero que siga aun conteniendo un rastro del objeto
original. Para ello existen algoritmos que operan de manera
general eliminando los pxeles bajo reglas predefinidas, y
detenindose cuando no haya ms cambios que hacer. Hay que
tener en cuenta que el tiempo de procesamiento es alto en muchas
ocasiones, pero ello generalmente depende del
del tamao de la foto, se propone trabajar con un banco de
imgenes determinado con el fin de realizar el proceso de
esqueletizacin de personas dentro de un medio controlado

Palabras clavesEsqueletizacin, personas
I. INTRODUCCIN
Simplificar la forma de un objeto, o reducir la cantidad de
datos que ste contiene siempre ha sido un tema
el campo del procesamiento de imgenes. Para ello es
necesario contar con tcnicas adecuadas
poder reducir los datos de los objetos. Unas de las tcnicas
ms utilizadas para lograr este objetivo, es la esqueletizacin
de las imgenes. Obtener el esqueleto de una imagen
significara encontrar un patrn a partir de la forma del objeto,
el cual contendr menores datos pero conservar la
continuidad y la menor cantidad de pxeles posible.
Obtener un esqueleto, es un proceso iterativo y puede que
demande mucho tiempo de procesamiento ya que
generalmente todos los algoritmos, requieren muchos
recorridos por toda la imagen. Existen a su vez
provienen de estructuras matemticas complejas y otros de
clculos lgicos; pero los cuales finalmente producen una
nueva imagen con menos datos.

Manuscrito recibido en Agosto 28, 2013. Esqueletizacin de personas
dentro un Video.
Edgar A. Gutirrez. Investigador Grupo EICIT, Universidad Santo
Tomas, Tunja, Boyac, Colombia. (email egutierrez@ustatunja.edu.co
Camilo E. Pardo. Investigador Grupo EICIT, Universidad Santo Tomas,
Tunja, Boyac, Colombia. (email cpardo@ustatunja.edu.co
Luis F. Sosa. Investigador Grupo EICIT, Universidad Santo Tomas,
Tunja, Boyac, Colombia. (email lsosa@ustatunja.edu.co
Fabin R. Jimnez, Universidad Pedaggica y Tecnolgica de Colombi
UPTC, Tunja, Boyac, Colombia. (email fabian.jimenez02@uptc.edu.co
Esqueletizacin
Edgar A. Gutierrez
Universidad Santo Tomas
egutierrez, cpardo
La esqueletizacin pretende obtener de la imagen,
menor cantidad datos
posibles, pero que siga aun conteniendo un rastro del objeto
ello existen algoritmos que operan de manera
general eliminando los pxeles bajo reglas predefinidas, y
do no haya ms cambios que hacer. Hay que
el tiempo de procesamiento es alto en muchas
ocasiones, pero ello generalmente depende del tipo de algoritmo y
, se propone trabajar con un banco de
el fin de realizar el proceso de
dentro de un medio controlado.
n, personas, imgenes, patrn.
Simplificar la forma de un objeto, o reducir la cantidad de
contiene siempre ha sido un tema de inters en
el campo del procesamiento de imgenes. Para ello es
que nos faciliten el
Unas de las tcnicas
jetivo, es la esqueletizacin
esqueleto de una imagen
encontrar un patrn a partir de la forma del objeto,
datos pero conservar la
de pxeles posible.
Obtener un esqueleto, es un proceso iterativo y puede que
demande mucho tiempo de procesamiento ya que
generalmente todos los algoritmos, requieren muchos
recorridos por toda la imagen. Existen a su vez algoritmos que
omplejas y otros de
finalmente producen una
Esqueletizacin de personas
Edgar A. Gutirrez. Investigador Grupo EICIT, Universidad Santo
egutierrez@ustatunja.edu.co)
Camilo E. Pardo. Investigador Grupo EICIT, Universidad Santo Tomas,
cpardo@ustatunja.edu.co)
Luis F. Sosa. Investigador Grupo EICIT, Universidad Santo Tomas,
lsosa@ustatunja.edu.co)
Fabin R. Jimnez, Universidad Pedaggica y Tecnolgica de Colombia
fabian.jimenez02@uptc.edu.co)
II. ESQUELETO DE UNA REGI
Un enfoque importante para representar la forma estructural
de una regin plana es reducirla a un grafo. Esto a menudo se
lleva a cabo obteniendo el Esqueleto de la regin mediante
un algoritmo de adelgazamiento
El esqueleto de una regin se puede definir usando la
Transformacin del Eje Intermedio
Blum. La TEI de una regin
siguiente forma. Para cada punto
ms cercano en B. Si p tiene
distancia mnima, se dice que pertenece al
(esqueleto) de R. El concepto cercano depende de la
definicin de distancia. Este mtodo resulta muy costoso
desde el punto de vista computacional. Por ello se han
propuesto varios algoritmos con el fin de aumentar la
eficiencia computacional a la vez que se obtiene como
resultado una representacin del eje intermedio de la regin a
evaluar[1].
Normalmente, estos algoritmos de adelgazamiento, que
borran ntegramente puntos de borde de la regin, estn
sujetos a las siguientes limitaciones en el borrado de estos
puntos:
1. El Borrado no debe eliminar puntos finales.
2. No debe romper la conexin.
3. No debe causar excesiva erosin de la regin
Aunque se han hecho algunos intentos para usar esqueletos
en imgenes de la escala de grises
suele estar asociada con datos binarios

Fig.1. Ejes Intermedios de dos regiones sencillas.
Un algoritmo interesante con este
por Naccache y Shinghal.
puntos de la regin se indicaran por unos y los puntos del
Esqueletizacin de una persona dentro
Video
Gutierrez, Camilo E. Pardo, Luis F. Sosa, Fabian R. Jimenez
Facultad de Ingeniera Electrnica
Universidad Santo Tomas, Universidad Pedaggica y Tecnolgica de Colombia
Tunja, Boyac, Colombia
, cpardo, lsosa@ustatunja.edu.co , fabian.jimenez02@uptc.edu.co
SQUELETO DE UNA REGIN
Un enfoque importante para representar la forma estructural
de una regin plana es reducirla a un grafo. Esto a menudo se
Esqueleto de la regin mediante
un algoritmo de adelgazamiento (llamado esqueletizacin).
na regin se puede definir usando la
ntermedio (TEI) propuesta por
La TEI de una regin R con borde B se calcula de la
siguiente forma. Para cada punto p de R, buscamos su vecino
tiene ms de un vecino a la misma
, se dice que pertenece al eje intermedio
. El concepto cercano depende de la
definicin de distancia. Este mtodo resulta muy costoso
desde el punto de vista computacional. Por ello se han
algoritmos con el fin de aumentar la
eficiencia computacional a la vez que se obtiene como
resultado una representacin del eje intermedio de la regin a
Normalmente, estos algoritmos de adelgazamiento, que
ntegramente puntos de borde de la regin, estn
sujetos a las siguientes limitaciones en el borrado de estos
El Borrado no debe eliminar puntos finales.
No debe romper la conexin.
No debe causar excesiva erosin de la regin
gunos intentos para usar esqueletos
es de la escala de grises, este tipo de representacin
suele estar asociada con datos binarios[2].

Ejes Intermedios de dos regiones sencillas.

nteresante con este propsito es el presentado
Suponiendo datos binarios, los
puntos de la regin se indicaran por unos y los puntos del
dentro de un
, Fabian R. Jimenez
, Universidad Pedaggica y Tecnolgica de Colombia
@uptc.edu.co
entorno por ceros. Se les llamara puntos oscuros e iluminados
respectivamente. Los puntos de borde son puntos oscuros que
tienen al menos un vecino-4 iluminado[3]. Un punto final es
un punto oscuro que tiene un nico vecino-8 oscuro. Un punto
de ruptura es un punto oscuro cuyo borrado rompera la
conexin[4]. Al igual que sucede con otros algoritmos de
adelgazamiento, el ruido y otras variaciones espureas a lo
largo de la frontera pueden alterar el esqueleto resultante (la
figura 1 muestra este efecto claramente). Consecuentemente,
se supone que las fronteras de todas las regiones han sido
suavizadas[5].
Tomando como referencia la disposicin de entorno de
vecindad siguiente:
_
n
3
n
2
n
1
n
4
p n
0
n
5
n
6
n
7
_
Fig.2. Notacin de los vecinos de p.

El Algoritmo de adelgazamiento identifica un punto de
borde p segn uno de los cuatro tipos siguientes:
1. Punto de borde izquierdo si su vecino n
4
esta
iluminado.
2. Punto de borde derecho si su vecino n
0
esta
iluminado.
3. Punto de borde superior si su vecino n
2
esta
iluminado.
4. Punto de borde inferior si su vecino n
6
esta
iluminado.

Es posible que p pertenezca a ms de uno de estos tipos. Por
ejemplo un punto oscuro p cuyos vecinos n
0
y n
4
estn
iluminados ser un punto de borde derecho y un punto de
borde izquierdo simultneamente. El procedimiento que se
ver a continuacin lleva a cabo en un principio la
identificacin (marcado) de los puntos de borde izquierdo que
deberan ser borrados. Este procedimiento se generaliza
despus a los otros tipos.
Un punto de borde p se marca si no es punto final ni punto
de ruptura, o si su borrado causa erosin excesiva. La
comprobacin de estas condiciones se lleva a cabo
comparando el entorno de vecindad-8 de p con las ventanas
mostradas en la figura 3. Donde los puntos ausentes no
intervienen en el proceso de comparacin.

o = _
J
p J
J J J
_ b = _
J J J
p J
J
_ c = _
J
p
J
_ J = _
J J J
p
c c c
_
Fig.3. Si el entorno de vecindad-8 de un punto P se ajusta a cualquiera de las
ventanas anteriores, entonces p no se marca.

En la figura 3 P y el asterisco son puntos oscuros, d y e son
puntos de iluminacin indiferente, es decir pueden ser tanto
oscuros como iluminados. En el entorno de vecindad de P, que
encaja con las ventanas de la a) a la c), pueden darse dos
casos:
1. Si todos los puntos d estn iluminados, p es un
punto final.
2. Si al menos uno de los puntos d esta oscuro,
entonces p es un punto de ruptura. En cualquiera
de los casos, p no debe ser marcado.

El anlisis de la ventada d) es ligeramente ms complicado.
Si al menos una d y una e estn oscuros, p es un punto de
ruptura y no debe ser marcado. Lgicamente es necesario
considerar otras disposiciones. Supongamos que todos los
puntos d estn iluminados y que los e pueden ser oscuros o
iluminados. Esta condicin da lugar a las ocho posibilidades
mostradas en la figura 4.

o = _

p

_ b = _

p

_ c = _

p

_ J = _

p

_
c = _

p

_ = _

p

_ g = _

p

_ = _

p

_
Fig.4. Todas las configuraciones que podran existir si d fuera claro en la
figura 3 y e fuera oscuro, asterisco o claro.

Las configuraciones de la a) a la c) hacen a P un punto final
y la configuracin d) hace que sea un punto de ruptura. Si P
fuera borrado en las configuraciones e) y f) su borrado
causara una erosin excesiva en las regiones inclinadas de
anchura 2. En la configuracin g), p es lo que comnmente se
llama espoln, debido, por lo general a un apndice corto o a
una protuberancia de la regin. Como se supone que la
frontera de la regin ha sido suavizada inicialmente, la
aparicin de una protuberancia durante el adelgazamiento se
considera una importante descripcin de forma y no debera
ser borrado. Finalmente, si todos los puntos aislados se borran
al principio, la aparicin de la configuracin h) durante el
adelgazamiento indica que la regin ha sido reducida a un
nico punto; su borrado eliminara la ultima parte que quedaba
de la regin.
Se aplicaran argumentos similares si los papeles de d y e
fueran invertidos o si se les permitiera a los puntos d y e tomar
valores oscuros e iluminados. La esencia del procedimiento
anterior es que cualquier punto de borde izquierdo P cuyos
vecions-8 se ajusten a la configuracin de cualquiera de las
ventanas mostradas en la figura 3 no deben ser marcados.
El procedimiento de comparacin del entorno de vecindad-8
de p respecto a las cuatro ventanas de la figura 3 tiene una
representacin booleana particularmente simple dada por:

B
4
= n
0
(n
1
+n
2
+ n
6
+ n
7
) (n
2
+ n
3
) (n
5
+ n
6
) (1)

Donde el subndice de B indica que n4 est iluminado (p es
un conjunto de borde izquierdo), . es el AND lgico, +
es el OR lgico, la barra superior es la negacin lgica y las n
son definidas en la figura 2. La ecuacin 1 se evala tomando
como oscuros los puntos no marcados previamente con los
cuales se obtiene un 1 (VERDADERO), y como iluminados o
marcados los puntos con los cuales se obtengan un 0 (FALSO)
en la ecuacin. As, si B
4
es 1 (VERDADERO), marcaremos
p. En caso contrario, p se deja sin marcar. Estas condiciones
sobre B
4
dan lugar al mismo resultado que el uso simultaneo
de las cuatro ventanas de la figura 3.
Se pueden obtener expresiones similares para los puntos de
borde derecho:

B
0
= n
4
(n
2
+n
3
+ n
5
+ n
6
) (n
6
+ n
7

Para los puntos de borde superior:

B
2
= n
6
(n
0
+n
4
+ n
5
+ n
7
) (n
0
+ n
1

Para los puntos de borde inferior:

B
6
= n
2
(n
0
+n
1
+ n
3
+ n
4
) (n
4
+n
5

Usando las expresiones anteriores, el algoritmo de
adelgazamiento lleva a cabo de forma iterativa dos
exploraciones sobre los datos. La secuencia de exploracin se
puede llevar a cabo en la imagen bien por filas o bien por
columnas, pero la eleccin afectara al resultado final. En la
primera exploracin de usan B
4
y B
0
para marcar los puntos
de borde izquierdo y derecho; en la segunda explo
empleamos B
2
y B
6
para marcar los puntos de borde superior e
inferior. Si en ninguna de las dos exploraciones se marcasen
nuevos puntos de borde, el algoritmo terminara, obtenindose
del esqueleto los puntos sin marcar; en caso contrario se
repetira el procedimiento. Se hace constar de
puntos oscuros previamente marcados se tratan como ceros
para evaluar las expresiones booleanas. Un procedimiento
alternativo es poner a cero cualquier punto marcado durante la
ejecucin del algoritmo, obtenindose de esta for
puntos del esqueleto y del entorno final. Este procedimiento es
ms fcil de llevar a cabo pero tiene como contrapartida la
perdida de todos los otros puntos de la regin.
En la figura 5.a. se muestra una imagen original en niveles
de gris; en b) la correspondiente imagen binaria mediante el
mtodo del umbral y finalmente en c) el esqueleto obtenido
usando el algoritmo descrito anteriormente.

Fig.5. a) Imagen original en niveles de grises; b) Imagen binaria; c) El
esqueleto obtenido usando el algoritmo descrito anteriormente.

La esqueletizacin es un proceso de quitar de un patrn la
mayor cantidad de pxeles posibles sin afectar la
del patrn. En otras palabras, despus que los pxeles hayan
sido quitados, el patrn debe ser recon
obtenido debe tener las siguientes tres propiedades:

1. Tan delgado como sea posible
2. Conectado
3. Centrado

Cuando estas caractersticas son alcanzadas el algoritmo
debe detenerse. A continuacin un patrn y su esqueleto.

7
) (n
1
+n
2
) (2)

1
) (n
3
+n
4
) (S)

5
) (n
0
+n
7
) (4)
Usando las expresiones anteriores, el algoritmo de
adelgazamiento lleva a cabo de forma iterativa dos
uencia de exploracin se
puede llevar a cabo en la imagen bien por filas o bien por
columnas, pero la eleccin afectara al resultado final. En la
para marcar los puntos
de borde izquierdo y derecho; en la segunda exploracin
para marcar los puntos de borde superior e
inferior. Si en ninguna de las dos exploraciones se marcasen
nuevos puntos de borde, el algoritmo terminara, obtenindose
del esqueleto los puntos sin marcar; en caso contrario se
hace constar de nuevo que los
puntos oscuros previamente marcados se tratan como ceros
para evaluar las expresiones booleanas. Un procedimiento
alternativo es poner a cero cualquier punto marcado durante la
ejecucin del algoritmo, obtenindose de esta forma solo
puntos del esqueleto y del entorno final. Este procedimiento es
ms fcil de llevar a cabo pero tiene como contrapartida la
perdida de todos los otros puntos de la regin.
En la figura 5.a. se muestra una imagen original en niveles
la correspondiente imagen binaria mediante el
mtodo del umbral y finalmente en c) el esqueleto obtenido
usando el algoritmo descrito anteriormente.

a) Imagen original en niveles de grises; b) Imagen binaria; c) El
goritmo descrito anteriormente.
La esqueletizacin es un proceso de quitar de un patrn la
mayor cantidad de pxeles posibles sin afectar la forma general
del patrn. En otras palabras, despus que los pxeles hayan
reconocido. El esqueleto
las siguientes tres propiedades:
Cuando estas caractersticas son alcanzadas el algoritmo
A continuacin un patrn y su esqueleto.
El trmino Transformacin de eje medio (MAT) y
Esqueletizacin comnmente usados de manera
El esqueleto es un imagen binaria que simplemente muestra el
esqueleto de por s, mientras
niveles de gris, donde cada punto del esqueleto
intensidad la cual representa su distancia a los lmites del
objeto original[610].
Fig.6. Un patrn de persona

Otra manera de pensar sobre los esqueletos es como el
lugar donde convergen los centros de crculos bitangenciales
que entran de manera completa dentro de la regin
considerada.

Fig.7. El esqueleto de un rectngulo defi
bitangenciales.
En este proyecto, una imagen
mtodo de clculo basado en la construccin de un algoritmo,
de igual forma el diseo e implementacin de Software
la estimacin de esquelitizacin. L
calcula mediante la localizacin de las princ
conjuntas. Se busca utilizar clasificadores en una imagen
normalizada para clasificar cada posicin de pxel en una
determinada categora. As mismo, el reto que se tiene es el
diseo de dos diferentes tipos de clasificadores, el clasific
de posicin conjunta de abajo hacia arriba y el clasificador de
esqueleto de arriba hacia abajo, se combinan para lograr los
resultados finales. La HOG (histograma de gradiente
Orientada) caracterstica se utiliza para entrenar a los
clasificadores que debern disearse a partir de las
necesidades del entorno de implementacin.
El sistema de estimacin de pose h
en dos modelos, la deteccin humana
sistema implementado de forma automtica deber estima
pose humana desde diferentes puntos de vista. Los resultados
del experimento se presentaran para mostrar el mtodo
propuesto, puede funcionar en un nmero relativamente de
tamao pequeo de las imgenes humanas con
siluetas humanas, como requisito previo, deber ser eficiente,
robusto y lo suficientemente precisa para posibles aplicaciones
en la vigilancia visual.
formacin de eje medio (MAT) y
comnmente usados de manera indistinguible.
El esqueleto es un imagen binaria que simplemente muestra el
esqueleto de por s, mientras que MAT es una imagen de
niveles de gris, donde cada punto del esqueleto tiene una
representa su distancia a los lmites del

Un patrn de persona, y su respectivo esqueleto
Otra manera de pensar sobre los esqueletos es como el
onvergen los centros de crculos bitangenciales
que entran de manera completa dentro de la regin

El esqueleto de un rectngulo definido en trminos de crculos
tangenciales.

imagen humana articulada plantea un
mtodo de clculo basado en la construccin de un algoritmo,
de igual forma el diseo e implementacin de Software para
esquelitizacin. La articulacin humana se
calcula mediante la localizacin de las principales posiciones
conjuntas. Se busca utilizar clasificadores en una imagen
normalizada para clasificar cada posicin de pxel en una
determinada categora. As mismo, el reto que se tiene es el
diseo de dos diferentes tipos de clasificadores, el clasificador
de posicin conjunta de abajo hacia arriba y el clasificador de
esqueleto de arriba hacia abajo, se combinan para lograr los
resultados finales. La HOG (histograma de gradiente
Orientada) caracterstica se utiliza para entrenar a los
e debern disearse a partir de las
necesidades del entorno de implementacin.
El sistema de estimacin de pose humana se piensa realizar
en dos modelos, la deteccin humana y la esqueletizacin. El
sistema implementado de forma automtica deber estimar la
pose humana desde diferentes puntos de vista. Los resultados
del experimento se presentaran para mostrar el mtodo
propuesto, puede funcionar en un nmero relativamente de
ueo de las imgenes humanas con el uso de
uisito previo, deber ser eficiente,
robusto y lo suficientemente precisa para posibles aplicaciones
La estimacin de pose humana articulada de las imgenes
monoculares es un problema esencial, pero difcil en la visin
por computador. Tiene una vasta rea de aplicaciones
potenciales, tales como la vigilancia visual, reconocimiento de
movimiento humano, y las interfaces hombre-mquina. Hay
muchos enfoques diferentes para abordar este problema. Los
mtodos de regresin basados que por lo general buscan
reducir la dimensin de obtener una representacin compacta
de la imagen y representan el espacio, y encuentran la
correlacin entre ellos.
Por ejemplo mtodos basados en estimacin de la postura
de acuerdo con los ejemplos pre-almacenados, haciendo
coincidir la imagen de entrada con ellos. Mtodos basados
modelos que utilizan modelos humanos cinemticos
articulados para localizar cada parte humana en la que los
modelos cinemticos proporcionan la restriccin bsica de la
forma humana. Muchos de los mtodos de estimacin
planteados dependen en gran medida una silueta clara de la
forma humana, que es difcil de obtener a partir de una sola
imagen[11].
En este proyecto, se busca desarrollar un nuevo mtodo para la
estimacin de pose humana articulada basado en la
construccin de un algoritmo orientado a software y Hardware
para buscar automticamente las posiciones humanas
conjuntas sin el uso de silueta, como requisito previo.
Este trabajo aborda el desafiante problema de estimacin
de pose 2D y el seguimiento de varias personas en las escenas
variantes usando una imagen fija u otorgada desde un
monocular[12]. Este es un problema importante con muchas
aplicaciones incluyendo la indexacin de video, la seguridad
del automvil, o de vigilancia. Hay mltiples desafos que
contribuyen a la dificultad de este problema y deben abordarse
de forma simultnea. Probablemente el reto ms importante
ms importante en el seguimiento 2D articulado es la
ambigedad inherente a representar en 2D la pose de las
pruebas de la imagen monocular.
Esto es particularmente cierto para escenas variantes del
mundo real con varias personas que a menudo son
parcialmente o incluso completamente ocluidos por perodos
ms largos de tiempo. Otro desafo importante, incluso para la
recuperacin de pose en 2D, es la complejidad de la
articulacin humana[13] y la apariencia. Adems, los fondos
complejos y cambiantes de forma dinmica de escenas
realistas complican la asociacin de datos en varios frames. Si
bien muchos de estos retos se han abordado de forma
individual, se tiene conocimiento de trabajos que ha dirigido a
todos ellos al mismo tiempo usando un monocular y moviendo
potencialmente la imagen pero que no evitan el anlisis por las
siluetas de las personas, lo cual se busca evitar en este
proyecto.
El objetivo de este trabajo es contribuir una formulacin
bayesiana para hacer frente a este problema desafiante[14].
Para ello nos basamos en algunos de los mtodos ms
poderosos propuestas para la deteccin y seguimiento de
personas en la literatura. En tres etapas sucesivas que se
acumulan las evidencias disponibles de la imagen 2D para
recuperacin de los datos disponibles de la pose. En ltima
instancia, nuestro objetivo es estimar la pose 2D de cada
persona en todos los frames de una secuencia de longitud,
dada la evidencia de la imagen en todos los frames. Para tal
fin, se define una distribucin posterior sobre parmetros de
pose. Se debe denotar los parmetros de pose 2D durante la
secuencia. Claramente, una de las principales dificultades es
que se tiene muchos ptimos locales como la estimacin de
poses 2D plantea, ya que es muy ambiguo dadas imgenes
monoculares pero que dificultan el anlisis. Para solucionar
este problema, en este trabajo se propone un nuevo enfoque de
tres etapas de forma secuencial reduciendo la ambigedad en
la recuperacin de pose 2D[15].
Antes de dar una visin general del proceso de tres etapas,
vamos a definir la probabilidad de observacin. Asumiremos
la independencia condicional de las pruebas en cada
fotograma debido a los parmetros de pose 2D y la
probabilidad de lo que se factoriza en un solo marco de
probabilidades. En este proyecto, la evidencia en cada frame
estar representada por la estimacin de las personas en 2D
como punto de vista W.R.T. la cmara y la distribucin
posterior de las posiciones en 2D y las orientaciones de las
partes del cuerpo. Para estimar de forma fiable a partir de
estos frames individuales, la primera etapa se basar en una
propuesta basada en la deteccin de personas y marcacin de
estimacin de pose basada en detectores discriminatorios de
partes.
Para acumular ms evidencia de la imagen 2D, la segunda
etapa extrae personas en el tracklets desde un pequeo nmero
de cuadros consecutivos utilizando un enfoque 2D de
seguimiento por deteccin. En este caso, la salida de la
primera etapa se refina en el sentido de que obtendremos
detecciones 2D ms fiables de las partes del cuerpo de la
gente, as como las estimaciones de punto de vista ms
robustos.
La tercera etapa a continuacin, utilizar las pruebas de
imagen acumulada en las dos ltimas etapas para recuperar la
pose 2D[16]. Combinaremos esto con un modelo oculto de
Markov (HMM), que permite extender las tracklets de
personas, que cubren slo un pequeo nmero de cuadros a la
vez, para, posiblemente en 2D de indicios de personas. Tenga
en cuenta que nuestro modelo 2D supone la generacin de la
evidencia de abajo hacia arriba a partir de modelos en 2D del
cuerpo y por lo tanto constituye un enfoque hbrido generativo
/ discriminativo[1719].
La principal aportacin es un nuevo enfoque para la
representacin la estimacin de la esqueletizacin, que
combina la posicin 2D, pose y las estimaciones de punto de
vista en un modelo de pruebas para el seguimiento en 2D con
un movimiento en 2D anterior, y es capaz de estimar con
precisin la pose 2D de varias personas de las imgenes
monoculares en el realismo de ambientes de calle.
La segunda contribucin, que sirve como un bloque de
construccin para la representacin de la estimacin de la
esqueletizacin 2D, es un mtodo de deteccin de peatones
nuevo basado en una combinacin de mltiples partes basadas
en modelos. Mientras que el poder de una parte basadas en
modelos para la deteccin de la gente ya se ha demostrado,
aqu se muestra que la combinacin de varios modelos
basados en partes conduce a mejoras significativas de
rendimiento, y al tiempo que mejora el estado de la tcnica en
la deteccin, tambin permite estimar los puntos de vista de la
gente en las imgenes monoculares.
Debido a las dificultades involucradas en la representacin
fiable de la estimacin de esqueletizacin 2D, esta tarea ha
sido considerada con frecuencia en ambientes controlados de
laboratorio, con las soluciones de uso frecuente de extraccin
de fondo y pruebas de imagen simple, como siluetas o de
borde los mapas[20]. Con el fin de limitar la bsqueda en
grandes dimensiones representan los espacios de estos
enfoques suelen utilizar mltiples cmaras calibradas, los
priores de movimiento complejos dinmicos, o modelos
detallados del cuerpo. Su combinacin permite lograr
resultados impresionantes, de forma similar en el rendimiento
de marcadores comerciales basados en sistemas de captura de
movimiento.
Sin embargo, las escenas realistas de la calle no cumplen
muchas de las suposiciones hechas por estos sistemas. Para
este tipo de escenas mltiples flujos de vdeo sincronizados
son difciles de obtener, la aparicin de la gente es mucho ms
compleja, y la extraccin robusta de evidencia se ve desafiada
por las frecuentes oclusiones totales y parciales, el desorden, y
el movimiento de la cmara[2123]. Para hacer frente a estos
desafos, una serie de avances recientes en mtodos de
aprovechar la deteccin de las personas y, o bien utilizar la
deteccin de prefiltrado y la inicializacin, o integrar la
deteccin, seguimiento y estimacin de la pose dentro de un
nico marco de "deteccin por seguimiento".
Este deber construir un estado del arte de la deteccin de
personas y la estimacin esqueletizacin 2D y aprovechar los
trabajos recientes en esta rea, que se combinan con un
movimiento dinmico anterior. Mientras que ha demostrado
permitir una estimacin de pose 2D de las personas en
sideviews, este trabajo va ms all de la estimacin de poses
en 2D desde mltiples puntos de vista. En comparacin con
trabajos posteriores, se busca llegar a la capacidad de estimar
poses en las imgenes monoculares, mientras que en otros su
enfoque utilizado es de tipo estreo. Otros trabajos proponen
combinar la deteccin y estimacin de la pose 2D para el
seguimiento monocular, pero depende de la capacidad de
detectar las actitudes caractersticas de las personas, las cuales
no se requieren aqu[2428]
III. RESULTADOS
Se utilizo el software Matlab y OpenCV como entorno de
desarrollo del algoritmo planteado para la esqueletizacin:

Fig.8. Imgenes Logos Software de desarrollo.

Inicialmente se realizaron pruebas en algunas imgenes en
formato JPEG las cuales se realizo un trabajo inicial con la
siguiente imagen de prueba:


Fig.9. Imgenes Base para la esqueletizacin.

Una vez con la imagen rellenada se inicio a construir el
algoritmo en matlab para la esqueletizacin:


Fig.10. algoritmo implementado para las imgenes fijas.

Del anterior algoritmo se obtuvieron respuestas muy
interesantes al poderse identificar algunos puntos principales
importantes para la esqueletizacin:


Fig.11. identificacin de puntos de inflexin y corte de las ramificaciones.

En la figura anterior se observa algunos puntos finales de la
esqueletizacin en rojo y puntos de interseccin importantes
en verde. Ahora bien, ya una vez terminada las pruebas en
imgenes JPEG, se procedi a realizar pruebas sobre imgenes
de video capturadas desde una webcam GENIUS GF112.


Fig.12. Webcam Genius GF112.

La cual servira para realizar la captura de imgenes fijas
para un formato de imagen y la posibilidad de realizar video
imagen original imagen en binario
imagen rellenada
\imagen con podado bwmorph(imagen,thin,inf)


punto final
interseccion
\fimagen con skel bwmorph(imagen,skel,inf)


punto final
interseccion
mediante la misma. Una gran ayuda fue el algoritmo
propuesto por AFP del ETH ZURICH, calvin group, el cual
proporciona una solucin para este tipo de problemas de
esqueletizacin. A continuacin se dan a conocer los
resultados de la implementacin en matlab como en OpenCV
referente a la esqueletizacin:


Fig.13. Imgenes Base para la esqueletizacin.

Las imgenes anteriores son una muestra de algunas
imgenes baje que sirvieron para el desarrollo y prueba del
algoritmo. Seguidamente se da a conocer el reconocimiento y
asignacin de los puntos principales para la esqueletizacin de
la persona que aparece en las imgenes anteriores.

Fig.14. Imgenes base con el resultado de la esqueletizacin.
IV. CONCLUSIONES
Tanto la ubicacin y calibracin de la cmara son
importantes para la implementacin de dicho algoritmo, se
observo algunas deficiencias en cuanto a entornos no
uniformes que posean poca iluminacin se decidi trabajar
con la identificacin de los miembros superiores ya que en la
parte de la cadera se presentaron distintos puntos de inters
que perjudicaban a la identificacin para el proceso de
esqueletizacin. Se recomienda trabajar con matlab
inicialmente ya que permite la fcil integracin y alta
documentacin con respecto a la temtica tratada. Para
trabajos futuros se propone trabajar con la cmara Kinect de
Xbox, ya que gracias a lo investigado se encuentra una mayor
cantidad de desarrollo con esta plataforma.
REFERENCIAS
[1] O. B. Alexandru and M. J. Black, Shining a Light on Human Pose:
On Shadows , Shading and the Estimation of Pose and Shape,
Work, no. 1, 2007.
[2] O. Cooperation, POSE ESTIMATION AND BODY
SEGMENTATION BASED ON HIERARCHICAL SEARCHING
TREE Shifeng Li , Huchuan Lu Department of Electronic
Engineering Dalian University of Technology , CHINA Digital
Imaging & Mobile Devices Department, Ieee International
Conference On Image Processing, no. 1, pp. 1289-1292, 2011.
[3] S. Engineering, Y. Tan, H. Zhang, and D. Xia, Pose parameter
estimation and Shape Distance, no. 3, pp. 899-902, 2008.
[4] Y. Hao and F. Zhu, Robust Analysis of P3P Pose Estimation,
Analysis, no. 60705011, pp. 222-226, 2008.
[5] N. Kyriakoulis and A. Gasteratos, Color-Based Monocular
Visuoinertial 3-D Pose Estimation of a Volant Robot, October, vol.
59, no. 10, pp. 2706-2715, 2010.
[6] T. Rhee, J. P. Lewis, K. Nayak, and U. Neumann, ADAPTIVE
NON-RIGID REGISTRATION OF 3D KNEE MRI IN
DIFFERENT POSE SPACES Department of Computer Science ,
University of Southern California , Los Angeles , USA Department
of Electrical Engineering , University of Southern California , Los
Angeles , USA Wet, Electronics, pp. 1111-1114, 2008.
[7] T. J. Roberts, S. J. Mckenna, and I. W. Ricketts, Online
Appearance Learning, Computing, pp. 425-428, 2002.
[8] J. Rodgers, D. Anguelov, H.-cheung Pang, and D. Koller, Object
Pose Detection in Range Scan Data, Pattern Recognition, 2006.
[9] B. Sapp, D. Weiss, and B. Taskar, Parsing Human Motion with
Stretchable Models.
[10] I. Science, MODEL-BASED MARKERLESS HUMAN BODY
MOTION CAPTURE USING MULTIPLE CAMERAS Chengkai
Wan , Baozong Yuan , Zhenjiang Miao, Society, pp. 1099-1102,
2007.
[11] Z. Ou, A Bilinear Model Based Solution to Object Pose Estimation
with Monocular Vision for Grasping, Construction, pp. 501-506,
2011.
[12] G. Schweighofer and A. Pinz, Robust Pose Estimation from a
Planar Target, Analysis, vol. 28, no. 12, pp. 2024-2030, 2006.
[13] R. Valenti, N. Sebe, and T. Gevers, Combining Head Pose and Eye
Location Information for Gaze Estimation, Image (Rochester,
N.Y.), vol. 21, no. 2, pp. 802-815, 2012.
[14] S. Wang, H. Ai, T. Yamashita, and S. Lao, Combined Top-Down /
Bottom-Up Human Articulated Pose Estimation Using AdaBoost
Learning, System, pp. 2-5, 2010.
[15] S. Yan, H. Wang, Y. Fu, J. Yan, X. Tang, and T. S. Huang,
Synchronized Submanifold Embedding for Person-Independent
Pose Estimation and Beyond, Image (Rochester, N.Y.), vol. 18, no.
1, pp. 202-210, 2009.
[16] ROBUST 3D POSE ESTIMATION FROM MULTIPLE VIDEO
CAMERAS Chong Chen , Dan Schonfeld Department of Electrical
and Computer Engineering University of Illinois at Chicago, pp.
541-544, 2009.
[17] Z. Wang and R. Chung, Articulated Human Body: 3D Pose
Estimation using a Single Camera, 2010.
[18] X. K. Wei, Modeling 3D Human Poses from Uncalibrated
Monocular Images, Bone, no. Iccv, 2009.
[19] Y. Wu and T. S. Huang, Capturing Articulated Human Hand
Motion: A Divide-and-Conquer Approach, Image Processing.
[20] O. B. Alexandru and M. J. Black, An Adaptive Appearance Model
Approach for Model-based Articulated Object Tracking, Pattern
Recognition, 2006.
[21] C. Castiello et al., A model-free approach for posture
classification, Sistemi Intelligenti, pp. 276-281, 2005.
[22] J. Charles and M. Everingham, Learning shape models for
monocular human pose estimation from the Microsoft Xbox
Kinect, Most, no. c, pp. 1202-1208, 2011.
[23] C. Chen and G. Fan, Combining Spatial and Temporal Priors for
Articulated Human Tracking with Online Learning, Online, pp. 1-
8, 2009.
[24] M. W. Lee, S. Member, and I. Cohen, A Model-Based Approach
for Estimating Human 3D Poses in Static Images, Analysis, vol.
28, no. 6, pp. 905-916, 2006.
[25] B. Li, Q. Meng, and H. Holstein, Sparse Point Features, vol. 34,
no. 3, pp. 1412-1422, 2004.
[26] F. Liu, G. Ding, X. Deng, and Y. Xu, Vision-based 3D Articulated
Pose Tracking Using Particle Filtering and, Program, pp. 965-970,
2008.
[27] J. Martnez, D. Makris, and C. O. Uruuela, Tracking Human
Position and Lower Body Parts Using Kalman and Particle Filters
Constrained by Human Biomechanics, vol. 41, no. 1, pp. 26-37,
2011.
[28] J. Millard, Evolutionary Motion Inverse Kinematics, Evolutionary
Computation, pp. 3671-3678, 2007.

You might also like