Human-Robot Interaction Through Computer Vision

1
Interaccin Humano-Robot
Diego Fernando Caicedo Payan

Marzo 2016.
Fundacin Universitaria Catlica Lumen-Gentium.

Facultad de Ingeniera.
Prctica Profesional.
Abstract
Today, thanks to the evolution of technology in the fields of electronics and computer robots have
come to multitask and adapt quickly to new tasks through the types of human communication; these
communication needs lead to the emergence of systems that interact with the human, as if it were a
human-human interaction.
To that appropriate behavior similar to human studies have been done in a similar to that made by a
human environment. To meet the above objective, it is necessary to equip the robot with techniques
to extract as much information with the environment which is related human; to extract the
information needed to use the sensors with which the robot is equipped, highlighting the techniques
of speech recognition and artificial vision.
Thanks to these techniques enables the human-robot interaction and we can recognize commands
by a user, and thus his pose, his facial expression or even detect objects in the environment with
which they can interact.
This article attempts to explain the human-robot interaction through artificial vision, where the
system is able to detect when a user requires the attention of the latter to interact with an object,
which has already been detected by the system within a region of interest marked by the user.
INDICE GENERAL
Resumen_______________________________________________________2
INDICE GENERAL_____________________________________________3
Captulo 1______________________________________________________4
1.1 Introduccin y Objetivos_____________________________________4
1.2. Objetivos_________________________________________________5
1.3 PLANTEAMIENTO________________________________________6
Captulo 2______________________________________________________6
Estado del Arte________________________________________________6
2.1 Interaccin Humano-Robot(HRI)_____________________________7
2.1.1 Interaccion Mediante rdenes.______________________________7
2.1.2 Interaccion Mediante Voz.__________________________________8
2.1.3 Interaccion Mediante Gestos.______________________________10
3. CONCLUSIONES____________________________________________13
4.TRABAJOS FUTUROS________________________________________14
5. BIBLIOGRAFIA_____________________________________________16
Resumen
Hoy en da gracias a la evolucin de la tecnologa en los campos de la electrnica y la informtica
los robots han llegado a realizar mltiples tareas y adaptarse rpidamente a nuevas tareas mediante
los tipos de comunicacin humana; estas necesidades de comunicacin conllevan a la aparicin de
sistemas que interactan con el humano, como si se tratara de una interaccin humano-humano.
Para tener dicho comportamiento adecuado similar al humano se han hecho estudios en un entorno
similar a la realizada por un humano. Para cumplir el objetivo mencionado, se necesita dotar al
robot con tcnicas que permitan extraer la mayor cantidad de informacin con el entorno el cual
est relacionado el humano; para extraer la informacin es necesario usar los sensores con los que el
robot est equipado, destacando las tcnicas del reconocimiento del habla y la visin artificial.
Gracias a estas tcnicas se hace posible la interaccin humano-robot ya que podemos reconocer
rdenes por un usuario, y as su pose, su expresin facial o incluso detectar objetos del entorno con
los cuales puede interactuar.
En este artculo, se intenta explicar la interaccin humano-robot por medio de la visin artificial,
donde el sistema es capaz de detectar cuando un usuario requiere llamar la atencin de ste para
poder interactuar con algn objeto, el cual ya ha sido detectado por el sistema dentro de una regin
de inters marcada por el usuario.
Captulo 1
1.1 Introduccin y Objetivos
En la antigua Grecia, ya se pensaba en la construccin de mquinas automticas
que trabajaran para el humano favoreciendo la calidad de vida, pero no fue hasta 1963
cuando apareci el primer robot industrial creado por Animacin, el cual, era una mano
mecnica controlada por ordenador.
Pero cuando realmente se generalizo el uso de robots en la industria, fue en la
dcada de los setenta. Estos robots industriales, fueron creados para sustituir a los
trabajadores en tareas repetitivas y montonas para ganar eficiencia. Estos robots eran
programados para realizar tareas donde no se requera ningn tipo de comunicacin
con el trabajador, pero gracias a los avances en la electrnica y en la informtica, se
han creado maquinas ms complejas.
Estos avances han permitido crear robots teleoperados, cuyos movimientos son producidos
por un trabajador por medio de un control remoto o por medio de otro robot
denominado esclavo. Gracias a la evolucin de los robots, se ha podido llegar a crear
sistemas multimodales, los cuales, utilizan numerosos canales (voz, profundidad, tacto,
color) para recolectar del entorno donde se encuentra la mayor informacin posible
para la realizacin de tareas de la forma ms eficiente. Esta evolucin ha hecho que los
robots puedan realizar ms tareas y adaptarse fcilmente a otras funciones, adems de
aumentar la necesidad de comunicacin entre humano y robot.
Esta necesidad de comunicacin ha originado la aparicin de robots sociales, quienes
han sido creados para ayudar al humano en sus tareas diarias. Estos robots pueden ser
utilizados en multitud de sitios como hospitales, museos, laboratorios, . . .
El principal problema al que nos enfrentamos en la interaccion humano-robot, se
debe a que la informacin obtenida del mundo y la forma de comunicarse del robot,
difiere de como la realiza el humano. La comunicacin entre robot y humano tiene que
ser lo ms parecido posible a la comunicacin que se produce entre humanos, por lo que
el robot tiene que ser capaz de reconocer el habla y obtener informacin del entorno
2
por medio del sentido visual.
La comunicacin que ms informacin suministra a un robot es la visual, ya que
gracias a este tipo de comunicacin, un robot puede mejorar en la realizacin de tareas
al obtener informacin del entorno. El sentido de la vista de un robot es suministrado
por cmaras, las cuales, permiten reconocer personas, gestos, objetos. Las cmaras
pueden suministrar imgenes en color o en mapas de profundidad, que permiten al robot
obtener cualquier tipo de informacin del entorno en el que se encuentra.
La reduccin en el coste de los sensores de profundidad, como el Microsoft Kinect,
ha popularizado su uso enormemente y abre nuevas posibilidades en la interaccion
humano-robot.
1.2. Objetivos
El objetivo del proyecto, es el de dotar a un robot con iniciativa para iniciar una
conversacin con el humano, enriqueciendo la naturalidad de la interaccion humano robot.
Para ello, el robot ser capaz de detectar cuando un usuario requiere atencin,
y as poder iniciar un proceso de interaccion con l. En esta interaccion podrn participar,
adems del robot y el humano, diferentes objetos del entorno que debern ser
reconocidos mediante tcnicas de extraccin de informacin.
Se pretende dotar al robot de la capacidad de reconocer objetos por su forma y
color en cualquier entorno de trabajo; posteriormente para la manipulacin del objeto
se le podra indicar al robot a travs de la comunicacin oral.
1.3 PLANTEAMIENTO
La interaccin humano-robot constituye un campo de investigacin amplio. Es en
este campo de investigacin donde se enmarca el contenido de este artculo cientfico.
Este artculo de investigacin surge como respuesta al problema de que no existe un
sistema suficientemente avanzado como para plantear la interaccin humano-robot de
una manera similar a como se plantea la interaccin humana. Por ello, se persigue el
objetivo de crear un sistema que posibilite la interaccin entre los robots y los humanos
3
de la manera ms natural posible.
Para lograrlo, ha sido necesario llevar a cabo, tareas de investigacin, desarrollo, e integracin
en diversos campos relacionados con
la interaccin humano-robot: dilogos, multimodalidad, expresividad, computacin
afectiva, etc.
Captulo 2
Estado del Arte
En este artculo trataremos las tcnicas de extraccin de informacin que se utilizan en la
visin artificial, as como los tipos de interaccin que hay entre el robot y el humano.
2.1 Interaccin Humano-Robot(HRI)

La interaccin humano-robot se dedica bsicamente al entendimiento y diseo de sistemas
robticos para usarlos por o con humanos, la HRI est influenciada por la proximidad en la
que se encuentren, pudiendo clasificarla en:
Interaccin prxima
Interaccin remota
La interaccion prxima se basa en los robots asistentes o sociales donde se incluyen todos los
aspectos de interaccin social, emotiva, y cognitiva. Los tipos de comunicacin existentes en
esta interaccion se pueden focalizar en: oral, visual y gestual. Teniendo en cuenta que la
comunicacin visual es la que ms le puede servir a un robot para extraer informacin.
La interaccion remota, se produce cuando el robot y el humano estn separados
temporalmente y espacialmente. Esta comunicacin funciona por medio de supervisin de
control y telemanipulacion.
2.1.1 Interaccion Mediante rdenes.

La teleoperacion se compone de un robot maestro manejado por un humano y un robot
esclavo quien recibe rdenes del humano para interactuar con el entorno. Los movimientos
hechos por el humano son predecibles para el robot esclavo ya que se estn comunicando por
medio de gestos en tiempo real. Entre el esclavo y el maestro se establece un algoritmo de
control que permite al humano realizar las actividades o tareas con tanta destreza como si
estuviera en el entorno. En el momento de realizar sistemas teleoperados, siempre se debe
mejorar la estabilidad y la transparencia.
La estabilidad permite que el robot esclavo se comporte de una forma descontrolada; uno de
los principales son el ruido elctrico y los retrasos en la comunicacin que es algo que
siempre puede pasar, pero el retraso depende de la distancia que hay entre el esclavo y el
maestro.
La transparencia se enfoca en las fuerzas que aparecen en el esclavo, que, adems, dichas
fuerzas se reflejan en el maestro. Por este motivo surge la necesidad de crear una
transparencia infinita, que consiste que el humano sienta las fuerzas tal cual como si estuviera
en el entorno.
Lo ideal es construir un sistema capaz de garantizar la estabilidad en el entorno, y a la vez
proporcionar una transparencia infinita y seguimiento perfecto. Pero en ocasiones no se da
porque teniendo una mejora en la transparencia afecta la estabilidad ya que transparencia se
fija en la fuerza que produce el humano con los movimientos. En la figura 2.1 Se muestra un
robot teleoperado.
Figura 2.1: Ejemplo de sistema teleoperado
2.1.2 Interaccion Mediante Voz.

Para que el robot sea capaz de interactuar con el humano se tienen que dar tres etapas:
Reconocimiento del habla: Es una etapa en la cual se reconoce palabras y oraciones
complejas.
Descifrado de la orden: En esta etapa se utiliza un algoritmo que representa las
instrucciones que se la van asignar al robot.

Ejecucin de instrucciones: Etapa donde el robot realiza las instrucciones descifradas en el
paso anterior.
Antes de que un sistema sea capaz de reconocer el habla, se tiene que producir un
procesamiento de voz, el cual, se divide en:
Identificacin del locutor.

Reconocimiento del habla.
Sntesis de voz.
. La identificacin del locutor, se logra por medio de la informacin de las ondas que
emite el sonido. Esta identificacin se realiza por medio de dos mdulos. El primer
modulo se encarga de extraer las caractersticas relevantes para identificar al hablante.
El segundo mdulo compara las caractersticas anteriores para identificar a las personas
conocidas por el sistema. Para identificar al locutor se utiliza el procesamiento espectral
de corto tiempo, donde los fragmentos de poca duracin se utilizan como muestras de
caracterizacin.
Los Mel-Frequency Septum Coefficients (MFCC), se utilizan para llevar a cabo
la caracterizacin utilizando filtros diferenciados de forma lineal en frecuencias bajas y
diferenciados de forma algortmica en frecuencias altas (Lpez [2009]). MFCC imitan
al procesamiento del odo humano.
Hoy en da se puede encontrar dos tipos de reconocimiento: Direct voice input
(DVI) y Large vocabulary continuous speech recognition (LVCSR). DVI se utiliza para
vocabularios relativamente pequeos, y como objetivo tiene que reconocer palabras o
6
frases que son entregadas a otras aplicaciones. En cambio, LVCSR se utiliza para crear
documentos a partir de frases extensas.
Las tcnicas ms utilizadas para el reconocimiento del habla, son: la comparacin

de patrones y la identificacin de fonemas. En la comparacin de patrones, el problema
que hay es la cantidad de muestras necesarias para tener un vocabulario amplio, ya
que se hace un anlisis espectral de muestras de voz para cada palabra del vocabulario.
Mientras que el reconocer fonemas, simplifica mucho el reconocimiento del habla.
Para medir la calidad de los sistemas que emplean esta interaccion, se tiene en
cuenta la precisin y la velocidad.
Por ltimo, la sntesis de voz obtiene voz a partir de un texto o de una representacin
lingstica de un texto. La sntesis de voz, est formada por la traduccin del texto una
representacin lingstica fon tica y por la conversin de sonidos de la representacin
obtenida en el primer paso.
La traduccin de un texto a una representacin fon tica se divide en:
Normalizacin del texto que consiste en cambiar partes problemticas como

nmeros y abreviaturas por palabras equivalentes.
Traduccin de cada palabra del texto normalizado a su equivalente fontico.

Creacin de unidades prosnicas, como, por ejemplo, oraciones.
Algunos de los trabajos realizados sobre esta forma de interactuar son los siguientes:
Alonso & M.A.Salichs [2011], M.J.L.Boada etal. [2004], R. Lpez Cozar etal. [2004]
y Cuesta etal. [2008].
2.1.3 Interaccion Mediante Gestos.

Otra forma de interaccion que tambien ofrece una gran cantidad de informacin, es
la que est basada en gestos. Antes de empezar a ver que tcnicas se suelen utilizar,
hay que hacer una definicin de lo que es un gesto.
Un gesto es el movimiento de alguna parte del cuerpo, con la intencin de transmitir
7
informacin de forma consciente o inconscientemente, o tambien de querer interactuar
con el entorno (Henrquez [2007]).
Los gestos que un humano puede realizar, se suelen utilizar para:
Manipular objetos.
Obtener y transmitir informacin por medio del tacto.
Comunicacin no verbal
Para poder realizar una comunicacin ms fiable, se deben realizar un seguimiento

del movimiento del usuario, que, como humano, puede realizar una gran cantidad de
gestos con el cuerpo, e interpretarlos para detectar el gesto realizado. Como un humano
puede realizar muchos gestos, estos se deben restringir basndose nicamente en la
utilizacin de las expresiones faciales y de los gestos con las manos, obteniendo as una
gran cantidad de datos.
La tcnica ms utilizada para realizar una comunicacin ms natural, a la hora de
detectar gestos, es la visin por computador.
Por otro lado, tambien se pueden utilizar dispositivos fsicos que detectan la posicin
y la orientacin de las manos. Los inconvenientes de utilizar dispositivos fsicos
son:(Henrquez [2007]).
Alto coste.
Procesos de calibracin.
Uso muy limitado (en laboratorio).
La tcnica ms comn para la localizacin de las manos (la mayora de sistemas

utilizan este tipo de interaccion), es la segmentacin por el color de la piel, ya que
tarda menos tiempo en procesarla; pero tambien tiene el inconveniente de que puede
confundir la mano con cualquier objeto que tenga un color similar. La forma ms
sencilla para relajar este problema, se da poniendo la mano como el nico objeto con
ese color, o bien, realizando una sustraccin del background siempre y cuando el fondo
sea esttico.
Otra forma para detectar los gestos de la mano, se realiza mediante cmaras infrarrojas,
calibradas a la temperatura del cuerpo; pero tiene dos grandes problemas:
Alto coste econmico.

Produce los mismos errores que la tcnica explicada anteriormente.
Otro mtodo, aunque no es demasiado fiable (procesamiento de un gran nmero de

imgenes para obtener buenos resultados), seria aplicar las tcnicas utilizadas para la
deteccin de objetos, ya que se da una identificacin en tiempo real.
Una vez explicadas las tcnicas que se pueden utilizar para la deteccin de gestos,
principalmente los de la mano, el siguiente paso es reconocer el gesto realizado. En la
actualidad los gestos se dividen en:
Dinmicos: Se utiliza una variable temporal, es decir, una variable de movimiento.

Estticos: Posicin de la mano sin asumir movimiento, pero si se produce
movimiento, no se utiliza ninguna variable temporal.
Para la deteccin de gestos estticos, teniendo en cuenta la sencillez y las restricciones

temporales (para que funcionen en tiempo real), se suele hacer uso de histogramas
de orientacin o histogramas de contorno de puntos.
En los histogramas de orientacin, se calculan los bordes de la mano para obtener la orientacin
de cada punto, para luego comparar el histograma obtenido con el
distancia
gestos
por medio de la
eucldea. El que menor distancia obtenga ser el gesto identificado. El problema que
presenta esta
tcnica, es que clasifica con la misma clase elementos diferentes. El uso de otros
histogramas como
los de contorno, mejoran a este, pero siguen apareciendo errores en la
clasificacin.
Otra tcnica consiste en muestrear la silueta de la mano, para pasar los puntos obtenidos al espacio
de frecuencia por medio de las transformadas de Fourier (Garca [2008]).
Los descriptores (puntos pasados al espacio de frecuencia), son casi invariantes a las translaciones,
escalados y rotaciones.
El problema es el coste computacional y que los gestos pueden ser que no queden lo
suficientemente definidos por su contorno. Para los gestos dinmicos se utilizan las mismas tcnicas
que para los estticos, ya que un gesto dinmico es un gesto esttico que cambia durante el tiempo.
La diferencia, es que utilizan algoritmos que contienen una variable que representa al tiempo.
En la figura 2.2 se puede ver un ejemplo de esta interaccion.
Figura 2.2: Sistema que funciona con deteccin de gestos

Algunos de los trabajos ms reconocidos sobre la detection de gestos, son los realizados
por Waldherr etal. [2000], Pavlovic etal. [1997] y Henriquez [2007], en los que
se incluyen algunas de las tcnicas mencionadas con anterioridad.
10
3. CONCLUSIONES
La interaccion robtica se ha constituido como uno de los avances ms controversiales dentro de lo
que es la tecnologa, ya que existe una clasificacin que ubica a los prototipos segn el uso o segn
el criterio que fue creado, as el tema de interaccion robtica es una rama de todo lo que es
ingeniera mecnica, y es utilizado para la ingeniera industrial. La robtica tiene muchos lados con
diferentes perspectivas, por ejemplo, se usa desde una mquina de chocolates hasta un informador
en planetas ajenos. Lo cierto es que siempre que se den avances dentro del campo de la robtica se
le estar haciendo honor a los avances tecnolgicos y a la ciencia en s.
Aunque se han realizado estudios acerca de la interaccion humano robot vemos, como da a
da
se ven avances y planteamientos para darle un valor agregado a la tecnologa, ya que siempre nos
encontraremos a problemas surgidos por todo lo que nos rodea y siempre vamos a querer buscarle
una implementacin y soluciones para diferentes aspectos de nuestra vida cotidiana, sabiendo que la
robtica en un futuro ser la mejor opcin a la hora de facilitarle al usuario tener contacto con un
robot de forma remota o presencial.
4.TRABAJOS FUTUROS
A continuacin, se enumeran y describen las mejoras al trabajo presentado, y en

las que ya se est trabajando:
Conversacin mutilarte: el sistema aqu presentado est desarrollado para
interacciones full-duplex2 uno a uno. Hasta la fecha, no es posible una interaccin

coherente y simultanea entre varios usuarios y el robot. Para lograr esta
tarea se presentan varios retos a superar, entre los que cabe resear:
Separar en diferentes canales cada modo. Cada modo, deber tener tantos
canales como usuarios haya presentes en la comunicacin. Por ejemplo, el
reconocedor de voz deber recibir la voz de cada usuario por separado.
Gestin avanzada del turno de comunicacin. El sistema deber determinar

a que usuario/s desea dirigirse en cada turno.
Carga simultnea de varios perfiles de usuario. Se necesitar que el sistema

pueda cargar todos los perfiles de los usuarios presentes en la conversacin
Mejora del sistema de identificacin de usuarios. En el trabajo aqu

presentado la identificacin de usuarios se realiza meramente usando el tono de
voz (canal sonoro). Se est trabajando, dentro de nuestro grupo, en el desarrollo
de un sistema bimodal (visin y voz). El tono de voz, la identificacin de la cara,
la deteccin del gnero, as como el color de la vestimenta pueden servir para
mejorar la precisin de la identificacin.
Mejora del sistema de deteccin de emociones. Sera interesante

aadir
al sistema de deteccin de emociones, informacin relevante al
contexto comunicativo
y a la historia previa del dilogo. Si el dilogo presenta una alta tasa
de errores de reconocimiento de voz, probablemente el usuario este ms
triste o
2
aburrido, que feliz. Al igual que, si en la conversacin aparecen palabras
como
feliz, divertido, etc., es muy probable que el usuario se encuentre en un
estado de
felicidad, mientras que, si aparecen palabras como cansado o
desanimado, muy
probablemente el usuario se encuentre aburrido. Siguiendo esta
aproximacin,
que tiene en cuenta la historia previa del dilogo con el usuario, tendra
sentido
estudiar las emociones generadas en el usuario por el propio proceso de dilogo:
aburrimiento, diversin, duda...
5. BIBLIOGRAFIA
Aliaga, I. ((2000)). Teleoperacion 2d. Centro de Estudios e Investigaciones

Tenicas de. Gipuzkoa, espaa.
Baumela, L. & J.M.Buenaposada. (2006). Vision por computador. madrid.
C.Barron & Kakadiaris, I. (2000). Estimating anthropometry and pose from a
single image.
Chen, Q. (2006). Hand detection with a cascade of boosted clasifiers using
haar-like features. Ottawa: Discover Lab.
Cuesta, J., Prio, R.A. & Martnez, J. (2008). Hand detection with a cascade of
boosted clasifiers using haar-like features. . Ottawa. Obtenido de
http://rua.ua.es/.
Frintrop, S., Rome, E. & Christensen, H. (2010). Computational visual attention
systems and their cognitive. California: foundations: A survey. ACM
Journal Name, Vol 7, No 1 . v, 12.
Garca, D. . (2008). Desarrollo de aplicacion para vision artificial. Arquitectura y
Tecnologia de Computadores.
Girshick, R. S. (2010). Efficient regression of general-activity human poses from
depth images. Research Cambridge .
Henrquez, H.E.F. (2007). Diseo y construccin de interfaces hri utilizando
gestos realizados con las manos. Universidad de Chile.
Itti, L. & Koch, C. (2001). Computational modeling of visual attention. California:
Institute of Technology, California.
Ortega, E.N. & nez Villaluenga, L.B. (2004). Teleoperacin: tecnicas,
aplicaciones,. Barcelona: Universidad Politecnica de barcelona.
Ruiz, M.P. (s.f.). Robot teleoperado de aplicacin en entornos no estructurados.
Universidad Politecnica de Cartagena.
(2005). Segmentacion por umbralizacion, metodo de otsu.
Waldherr, S., Romero, R. & Thrun, S. (2000). A gesture based interface for
human-robot interaction. Autonomous Robots.

Human-Robot Interaction Through Computer Vision

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Human-Robot Interaction Through Computer Vision

Uploaded by

Copyright:

Available Formats

1

Diego Fernando Caicedo Payan

Fundacin Universitaria Catlica Lumen-Gentium.

2.1 Interaccin Humano-Robot(HRI)

2.1.1 Interaccion Mediante rdenes.

2.1.2 Interaccion Mediante Voz.

Reconocimiento del habla: Es una etapa en la cual se reconoce palabras y oraciones

instrucciones que se la van asignar al robot.

Identificacin del locutor.

Las tcnicas ms utilizadas para el reconocimiento del habla, son: la comparacin

Normalizacin del texto que consiste en cambiar partes problemticas como

Traduccin de cada palabra del texto normalizado a su equivalente fontico.

2.1.3 Interaccion Mediante Gestos.

Para poder realizar una comunicacin ms fiable, se deben realizar un seguimiento

La tcnica ms comn para la localizacin de las manos (la mayora de sistemas

Alto coste econmico.

Otro mtodo, aunque no es demasiado fiable (procesamiento de un gran nmero de

Dinmicos: Se utiliza una variable temporal, es decir, una variable de movimiento.

Para la deteccin de gestos estticos, teniendo en cuenta la sencillez y las restricciones

los de contorno, mejoran a este, pero siguen apareciendo errores en la

Figura 2.2: Sistema que funciona con deteccin de gestos

A continuacin, se enumeran y describen las mejoras al trabajo presentado, y en

Conversacin mutilarte: el sistema aqu presentado est desarrollado para

interacciones full-duplex2 uno a uno. Hasta la fecha, no es posible una interaccin

Gestin avanzada del turno de comunicacin. El sistema deber determinar

Carga simultnea de varios perfiles de usuario. Se necesitar que el sistema

Mejora del sistema de identificacin de usuarios. En el trabajo aqu

Mejora del sistema de deteccin de emociones. Sera interesante

Aliaga, I. ((2000)). Teleoperacion 2d. Centro de Estudios e Investigaciones

You might also like