Aggarwal

[Aggarwal,Ryoo.2011]Human activity analysis: A review ACM Reference Format:Aggarwal, J. K. and Ryoo,M. S. 2011. Human activity analysis: A review.
ACM Comput. Surv. 43, 3, Article 16 (April 2011), 43 pages. DOI = 10.1145/1922649.1922653 http://doi.acm.org/10.1145/1922649.1922653 Reconocimiento automatico de actividades de alto nivel, compuesto de multiples acciones simples de personas (o atomicas). Deteccin de actividad sospechoso y anormal opuesta a una actividad normal. Existen varios tipos de actividades humanas. dependiendo de su complejidad, conceptualmente se categorizan las actividades humanas en 4 niveles: Gestos, acciones, interacciones y actividades grupales. Los gestos son movimientos elementales de la parte del cuerpo de una persona y son los componentes atomicos describiendo el significado del movimiento de una persona. Las acciones son actividades de una sola persona que pueden estar compuestas de multiples gestos organizados temporalmente. Interacciones son actividades humanas que envuelven a 2 o ms personas y/o objetos. Las actividades de grupo son las actividades realizadas por grupos conceptuales compuestos de multiples personas y/o objetos. Todas las metodologias de reconocimiento de actividades se clasifican en 2 categorias: enfoque de una capa y enfoque jerarquico. El enfoque de una sola capa son lo que representan y reconocen las actividades humanas directamente de una secuencia de imagenes; debido a su naturaleza este enfoque es adecuado para el reconocimiento de gestos y acciones con caracteristicas secuenciales, el objetivo principal es analizar movimientos secuenciales de humanos relativamente simples y cortos; este enfoque es ms afectivo cuando una secuencia particular de patrones que describen una actividad pueden capturarse de una secuencia de aprendizaje. El enfoque jerarquico representa actividades humanas de alto nivel al describirlas en terminos de otras actividades ms simples, que generalmente se llaman subeventos. Se construyen Sistemas de reconocimiento compuestos de multiples capas, lo que lo hacen adecuado para el analisis de actividades complejas. El enfoque de una capa se clasifica en 2 tipos dependiendo de como modela las actividades humanas: esto es, un enfoque de espacio-tiempo y uno secuencial. El enfoque espacio-tiempo observa una entrada de video como un volumen 3D (XYT) del que se extraen caractersticas del volumen; los volumenes se construyen al concatenar imagenes a travs del tiempo y se comparan para medir sus similitudes; mientras que el enfoque secuencial lo interpreta como una secuencia de observaciones, representan la actividad humana como una secuencia de vectores de caracteristicas extraidos de las imagenes y reconocen las actividades al buscar esas secuencias.
Los enfoques espacio-tiempo se dividen a su vez en 3 categorias basados en las caractersticas que utilizan del volumen espacio-tiempo 3d: volumen de ellos mismos,trayectorias o descriptores de puntos de interes local. Los enfoques secuenciales se clasifican dependiendo si usan metodologias de reconocimiento basadas en ejemplos o metodologias basadas en modelos. Los enfoques jerarquicos de clasifican en la base de las metodologias que utilizan: enfoque estadistico,sintactico y basado en descripciones. El enfoque estadstico construye modelos estadisticos basados en estados concatenados jerarquicamente (ex:HHM) para representar y reconocer actividades humanas de alto nivel. Similarmente, los enfoques sintacticos utilizan una sintaxis gramatical como las gramaticas libres de contexto estocasticas (SCFG) para modelar una secuencia de actividades; escencialmente modelan una actividad de alto nivel como una cadena de actividades atomicas de bajo nivel. Los enfoques basados en la descripcin representan actividades humanas al describir subeventos de las actividades y sus estructuras temporales, espaciales y lgicas.
1. Enfoque de una capa 1.1. Enfoque espacio-tiempo Este enfoque este adecuado para el reconocimiento de acciones y gestos periodicos, algunas veces tienen dificultades inherentes en el manejo de la velocidad y las variaciones el movimiento. Es confiable bajo ruido y cambios de iluminacin, no es recomendable para activididades ms complejas, es invariante al viewpoint. 1.1.1. Reconocimiento de acciones con volumenes espacio-tiempo. El nucleo del reconocimiento es la similitud de las medidas entre dos volumenes, computar los movimientos similares descritos en los 2 volumenes. Algunos enfoque en lugar de concatenar una serie de imagenes solo apilan el primer plano de las regiones de una persona. La mayor desventaja de este enfoque es la dificultad de reconocer acciones cuando multiples personas estan presente en una escena, la mayoria de ellos aplican el algoritmo tradicional de la ventana deslizante. 1.1.2. Reconocimiento de acciones con trayectorias espacio-tiempo Interpretan una actividad como un conjunto de trayectorias espacio-tiempo. Una persona generalemente se representa como un conjunto de 2 o 3 puntos dimensionales que corresponden a las posiciones de sus articulaciones. La mayoria de estos mtodos son invariantes a la vista, pero para hacer esto se requiere de un componente robusto de bajo nivel para estimar correctamente la coyuntura XYZ 3D de las personas que aparecen en la escena. El problema de las deteccin y seguimiento de las partes del cuerpo 3D es un problema sin resolver.
1.1.3 Reconocimiento de acciones usando caracteristicas locales espacio-tiempo Un volumen 3D espacio-tiempo es escencialmente un objeto 3d rigido, por lo que si un sistema es capaz de extraer caracteristicas apropiadas que describen las caracteristicas de cada accin 3d de los volumenes, la accin puede reconocerse resolviendo un problema de emparejamiento de objetos. Se extraen caracteristicas locales especificas que han sido diseadas para capturar la informacin de movimiento local de una persona de un volumen espacio-tiempo 3d,estas caracteristicas se combinan para representar actividades mientras se consideran relaciones espacio-temporales o ignorando sus relaciones. Finalmente los algoritmos de reconocimiento se aplican para clasificar las actividades. Los puntos de interes local 3d son populares debido a su confiabilidad. Esta tcnica tiene varias ventajas: no se requiere de sustraccin del fondo u otros componentes de bajo nivel, es invariante a la escala-rotacin-traslacin. Son particularmente apropiados para reconocer acciones periodicas simples como caminar y saludar, ya que las acciones periodicas repetidamente generaran patrones de caracteristicas.
1.2. Enfoque Secuencial Reconoce actividades humanas analizando la secuencia de caracteristicas.consideran una secuencia de imagenes y deducen que una actividad ha ocurrido en el video si son capaces de observar una secuencia caracterizando la actividad. Primero convierten una secuencia de imagenes en una secuencia de vectores de caracterisitica al extraer sus caracteristicas (e.g. grados de angulos de coyunturas) que describen el status de una persona por imagen. Una vez se extrayeron los vectores de caracterisiticas el enfoque secuencial analiza la secuencia para medir que tan probable es que los vectores de caracteristicas sean producidos por una persona realizando la actividad. si la probabilidad de la secuencia y la clase de la actividad es suficientemente alta, el sistema decide que la actividad ha ocurrido. 1.2.1 Exemplar-based Describe clases de actividades humanas entrenando ejemplos directamente. Mantienen una secuencia representativa por clase o un conjunto de secuencias de entrenamiento por actividad, y las empareja con una nueva secuencia para reconocer la actividad. Representa las actividades humanas al mantener una plantilla de secuencia o un conjunto de secuencias de ejemplos de ejecuciones de acciones.cuando se obtiene una secuencia de video el enfoque compara el vector de la secuencia de caracteristicas extraidas del video con la plantilla de secuencias, si la similitud es suficiente es sistema deduce que la secuencia contiene una ejecucin
de la actividad. Los humanos realizan actividades similares a diferentes velocidades y estilos, y la similitud debe medirse considerando esas variaciones. 1.2.2 Basado en modelos de estados Representan una accin humana al construir un modelo que se entrena para generar secuencias de vectores de caracterisitcas correspondientes a la actividad, al calcular la probabilidad que una secuencia dada es generada por cada modelo de actividad, el enfoque es capaz de reconocer actividades. Es un enfoque secuencial que representa una actividad humana como un modelo compuesto de un conjunto de estados. El modelo se entrena estadsticamente para que corresponda a la secuencia de vectores de caracterisiticas que pertenecen a su clase de actividad. Generalmente un modelo estadistico se entrena para cada actividad. Los modelos ms utilizados son HMMs y redes bayesianas dinamicas (DBNs), en ambos casos la actividad se representa en terminos de conjunto de estados ocultos. Se asume que un humano esta en un estado en cada cuadro de tiempo, y cada uno genera una observacin. En el siguiente cuadro, las transiciones del sistema a otro estado considera la probabilidad de transicin entre estados. Una probabilidad de transicin y observacin se entrenan para los modelos, las actividades son comunmente reconocidad al resolver el problema de evaluacin. El problema de evaluacin es calcular la probabilidad de una secuancia dada generada por un modelo estado particular. Si la probabilidad calculada es suficientemente alta, el modelo es capaz de decidir que la actividad que corresponde al modelo ocurre en la entrada proporcionada. Los enfoques secuenciales consideran las relaciones secuenciales entre las caractersticas en contraste con los enfoques espacio-tiempo. Comparado con los modelos secuenciales basados en modelos de estado, los basados en ejemplares provee de ms flexibilidad para reconocimiento de sistemas ya que multiples secuencias de ejemplo pueden mantenerse por el sistema. La dinmica del algoritmo time-warping generalmente utilizado para enfoque basado en ejemplares provee una metodologa de emparejamiento no-linear que considera las variaciones de la tasa de ejecucin. Adems, los enfoque basados en ejemplares son capaces de enfrentar con menos datos de entrenamiento que los basados en modelos. Por otro lado, los enfoques basados en estados tiene como limitante es que tienden a requerir de un gran numero de videos de entrenamiento entre tanto la actividad a reconocer sea ms compleja.
2. Enfoque Jerarquico Este enfoque es capaz del reconocimiento de actividades de alto nivel basado en el reconocimiento de resultados de otras actividades ms simples. La motivacin es dejar a las subactividades ms simples (subeventos) que se pueden modelar relativamente fcil para reconocerse primeramente, y despus usarlos para reconocer actividades de alto nivel. En general, patrones de actividades comunes de movimiento que aparecen frecuentemente durante actividades humanas de alto nivel se modelan como acciones de nivel atomico (o primitivo), y las actividades de alto nivel se representan y reconocen concatenndolas jerrquicamente. En muchos enfoques jerrquicos, estas acciones atomicas se reconocen al adoptar metodologas de reconocimiento de una sola capa. Los enfoques jerrquicos son especialmente adecuados para una anlisis a nivel semntico de las interacciones ente humanos y objetos tambin para grupo de actividades complejas. Esta ventaja es resultado de 2 habilidades de los enfoques jerrquicos: la habilidad de afrontar con menos datos de entrenamiento y la habilidad para incorporar concoimiento a priori en la representacin. La cantidad de datos de entrenamiento para reconocer actividades es menor en el enfoque jerarquico que en el modelo de una sola capa. Categorizaremos nuestros enfoques jerrquicos en 3 grupos: estadstico, sintctico y basado en descriptores. 2.1. Enfoque estadstico Hacen uso de modelos estadsticos basados en estados para reconocer actividades. En el caso de enfoques estadsticos jerrquicos, se utilizan multiples capas de modelos basados en estados como HMMs y DBNs para reconocer actividades con estructuras secuenciales. En la capa inferior, acciones atomicas se reconocen de secuencias de vectores de caractersticas, asi como en los enfoques secuenciales de una sola capa. A consecuencia, una secuencia de vectores de caractersticas se convierten en una secuencia de acciones atomicas. Los modelos de segundo nivel tratan esta secuencia de acciones atomicas como observaciones generadas por los modelos de segundo nivel. Para cada modelo, una probabilidad del modelo generando una secuencia de observaciones se calcula al medir la probabilidad entre la actividad y la secuencia de entrada de imgenes. Tambin la estimacin de probabilidad mxima (MLE) o la probabilidad a posteriori mxima (MAP) del clasificador es construida como resultado. Los enfoques ms representativos son: modelos ocultos de markov en capas (LHMMs), HMMs multi-capa, DBNs usando enfoque jerarquico, redes bayesianas usando cadenas de markov Montecarlo (MCMC), red de propagacin (P-net). Los enfoque estadsticos con especialmente adecuados para reconocer actividades secuenciales. Con suficientes datos de entrenamiento, los modelos estadsticos son capaces de reconocer fiablemente actividades correspondientes incluso en el caso de entradas ruidosas. Su mayor
limitacin es su inhabilidad inherente a reconocer actividades con estructuras temporales complejas, como una actividad compuesta de subeventos concurrentes. Este enfoque es adecuado para modelar relaciones secuenciales no concurrentes. 2.2. Enfoque sintctico Modelan actividades humanas como una cadena de smbolos, en el que cada smbolo correponde a una accin de nivel atomico. Similar al enfoque estadstico jerarquico, tambin requiere de acciones de nivel atomico para reconocerse primeramente, usando cualquiera de las tcnicas previas. Las actividades humnas se presentan como un conjunto de reglas de produccin generando una cadena de acciones atomicas, y se reconocen al adoptar tcnicas de parsing del campo de los languajes de programacin. Gramaticas libres del contexto (CFGs) y gramticas estocsticas libres del contexto (SCFGs) se han utilizado previamente para reconocimiento de actividades de alto nivel. Una de las limitaciones del enfoque sintctico es el reconocimeinto de actividades concurrentes. Este enfoque es capaz de reconocer probabilsticamente actividades jerrquicas compuestas de subeventos secuenciales, pero son inherentemente limitadas por actividades compuestas de subeventos concurrentes. El orden temporal de kas actividades a nivel atomico tienen que ser estrictamente secuenciales; el usuario debe proveer de un conjunto de reglas de produccin para todos los eventos posibles incluso para dominios grandes. Sino, se tiende a dificultades cuando una observacin desconocida interfiere con el sistema. Para prevenir esa limitacin KItani et al propone un algoritmo para aprender reglas gramaticales automticamente de las observaciones. 2.3. Enfoque basado en la descripcin Es un enfoque de reconocimiento que explcitamente mantiene las estructuras de la actividades humanas espacio-temporales. Representa una actividad humana de alto nivel en trminos de actividades ms simples que componen la actividad, describiendo sus relaciones: temporales, espaciales y lgicas. Esto es, modelan una actividad humana como una ocurrencia de sus subeventos que satisface ciertas relaciones. Entonces, el reconocimiento de las actividades es realizado al buscar los subeventos que satisfagan las relaciones especificadas en su representacin. Este enfoque es inherentemente jerarquico y son capaces de manejar actividades con estructuras concurrentes. Este enfoque se asocia usualmente con intervalos de tiempo con subeventos que ocurren para especificar relaciones temporales necesarias entre intervalos de tiempo. Usualmente las CFGs se usan como una sintaxis formal para la representacin de actividades humanas, el uso de CFGs es completamente diferente de la del enfoque sintactico El enfoque sintctico hace uso directo de las CFGs para el reconocimiento, lo que implica que ellas mismas describen las semnticas de las actividades. Por otro lado, el enfoque basado en descripcin adopta una CFG como sintaxis para formalmente representar las actividades. Tambin se utilizan en este enfoque las redes de creencias bayesianas, redes Petri, redes bayesianas para eventos primitivos y HMMs para eventos compuestos, CFGs, Markov logic
networks (MLNs). En general todos los enfoques tienen capas jerrquicas de reconocimiento de varios niveles.
3. Reconocimiento de interacciones entre humanos y objetos Para lograr este reconocimiento, se requiere la integracin de multiples componentes. Identificar objetos y el movimiento implicado en una actividad asi como el anlisis de su interaccin es escencial para un reconocimiento fiable de actividades humanas relacionado objetos.El reconocimiento ms tpico para este enfoque es aquel que ignora la interaccin entre el reconocimiento del objeto y la estimacin del movimiento. Se reconocen primero los objetos y las actividades relacionadas se reconocen al analizar el movimiento de los objetos. Por otro lado, varios investigadores han estudiado las relaciones y dependencias entre objetos, movimiento, y actividades humanas para mejorar el reconocimiento de objetos asi como reconocimiento de actividades.

Aggarwal

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Aggarwal

Uploaded by

Copyright:

Available Formats

[Aggarwal,Ryoo.2011]Human activity analysis: A review ACM Reference Format:Aggarwal, J. K. and Ryoo,M. S. 2011. Human activity analysis: A review.

You might also like