Anda di halaman 1dari 69

Universidad Autnoma de Madrid Escuela Politcnica Superior Departamento de Ingeniera Informtica

Identificacin de caractersticas relevantes para reconocimiento de emociones en el rostro

Richard Nolberto Rojas Bello Tutor: Juan Alberto Sigenza Pizarro

Trabajo de Fin de Master


Programa Oficial de Posgrado en Ingeniera Informtica y de Telecomunicaciones Universidad Autnoma de Madrid Octubre de 2009

ndice de contenido
1.Introduccin......................................................................................................................................5 1.1. Antecedentes generales............................................................................................................5 1.2.Problema...................................................................................................................................9 1.3. Justificacin.............................................................................................................................9 1.4.Objetivo general........................................................................................................................9 1.4.1.Objetivos especficos........................................................................................................9 1.4.2.Diseo metodolgico........................................................................................................9 2.Localizacin de rostros y formas....................................................................................................11 2.1. Introduccin...........................................................................................................................11 2.2. Mtodos basados en plantillas...............................................................................................12 2.3. Mtodos basados en movimiento...........................................................................................13 2.3.1. Flujo ptico....................................................................................................................13 2.3.2.Deteccin de puntos de inters........................................................................................14 2.3.3.Diferencias......................................................................................................................14 2.4. Mtodos basados en tonalidad...............................................................................................15 2.5. Mtodos basados en texturas.................................................................................................15 2.6. Mtodos basados en visin estereoscpica ...........................................................................16 2.7. Mtodos basados en conocimiento........................................................................................18 2.7.1.Mosaicos jerrquicos.......................................................................................................18 2.8. Mtodos basados en caractersticas invariantes.....................................................................19 2.8.1.Identificacin de rasgos faciales.....................................................................................19 2.9. Mtodos basados en apariencias............................................................................................20 2.9.1.Eigenfaces.......................................................................................................................21 2.9.2.Redes neuronales artificiales...........................................................................................21 2.9.3.Mquinas de soporte vectorial........................................................................................22 2.9.4.Hidden Markov models...................................................................................................23 2.10. Mtodos basados en modelos geomtricos..........................................................................24 2.10.1.AAM.............................................................................................................................25 2.11. Mtodos 3D e infrarrojos.....................................................................................................27 3.Reconocimiento de emociones.......................................................................................................29 3.1.Introduccin............................................................................................................................29 3.2.Estudios de la psicologa.........................................................................................................29 3.3.Desafos actuales.....................................................................................................................32 3.4.Tcnicas de investigacin para inferir emociones..................................................................34 3.4.1.Mtodos de cuantificacin de emociones.......................................................................34 Regional Volumetric Difference (RVD)...............................................................................34 Facial Action Coding System (FACS)..................................................................................36 Facial Expression Coding System (FACES)........................................................................38 3.4.2.Anlisis automtico de expresin facial..........................................................................39 Mtodos basados en imgenes estticas..........................................................................40 Mtodos basados en video...............................................................................................41 Mtodos basados en modelos geomtricos......................................................................42 Mtodos basados en superficies 3D e infrarrojos............................................................43 4.Propuesta para sistemas de seguridad y control de trnsito de pasajeros......................................45 4.1.Resultados de la investigacin sobre el estado del arte..........................................................45 3

4.2.Sistema propuesto...................................................................................................................46 4.3. Pruebas de rendimiento..........................................................................................................55 4.3.1.Pruebas con imgenes.....................................................................................................55 4.3.2.Pruebas con videos..........................................................................................................57 5.Conclusiones y proyeccin.............................................................................................................59 Sobre la investigacin y la propuesta...........................................................................................59 Trabajo futuro................................................................................................................................60 6.Bibliografa.....................................................................................................................................63 7.ANEXOS........................................................................................................................................69 7.1.ANEXO I: AUs definidas en FACS........................................................................................69

Captulo 1

Introduccin
1.1. Antecedentes generales
Reconocer emociones o variaciones naturales en el rostro puede permitir encontrar campos donde aplicar de forma concreta toda la base terica existente tras las tcnicas de obtencin de formas, seguimiento de cuerpos y reconocimiento de rostros; contextos reales posibles son: control parental de programacin televisiva, interaccin de pasajeros con los sistemas de entretenimiento en vuelos de larga distancia o modelos de interaccin en videojuegos. La obtencin de formas puede abordarse como la manera de establecer una relacin entre una imagen en un sistema de coordenadas 2D y un objeto en un sistema 3D. Para resolver el problema computacionalmente existen dos orientaciones: arriba-abajo, abajo-arriba [1]. La estrategia arriba-abajo parte de un conjunto de suposiciones y propiedades esperadas basadas en conocimiento experto [2]; estas propiedades se verifican sucesivamente en cada etapa de procesamiento hasta llegar a la imagen de datos. Por otra parte la estrategia abajo-arriba es la propuesta hecha por David Marr (1985)[2][3]. Marr defini el proceso de deteccin de objetos mediante un enfoque computacional, en la cual el sistema visual se trata como si fuera un ordenador programado para recibir objetos; su diagrama de funcionamiento es el siguiente:

Fig. 1.1: Enfoque computacional de David Marr [2]. En la figura 1.1, el punto de partida es la imagen del objeto en la retina; la imagen se analiza para identificar reas de luz y oscuridad y las partes en las que cambia la intensidad. El resultado del anlisis es una serie de caractersticas bsicas (reas cerradas, segmentos de lneas, extremos de lneas y lneas que definen bordes) llamadas primer boceto. Luego se agrupa el contenido del primer boceto segn caractersticas de tamao y orientaciones similares, se procesa nuevamente el 5

resultado, y se obtiene un nuevo boceto llamado 2 D que termina en una percepcin tridimensional [3]. Las tcnicas de seguimiento de cuerpos, o body-tracking, despiertan gran inters, sobre todo por su aplicacin en seguridad y salud. Sus inicios se remontan a la deteccin simple de objetos por visin artificial y se ha abordado frecuentemente con algoritmos bayesianos, algunos de ellos se citan en los estudios de Pantrigo (2006)[4] y Chen (2003)[5]: 1. Particle Filtering [6]: est basado en el mtodo de Monte Carlo. Crea partculas aleatoriamente sobre una imagen, cada punto tendr un valor relacionado con la cercana al objeto que se pretende seguir. Los valores ms altos estarn dentro de objetos y tendrn mayor probabilidad de ser escogidos al momento de capturar los puntos lanzados para formar una nueva coleccin. En una segunda etapa se modificar levemente la informacin de posicin del conjunto actual, de esta forma se pretende predecir la nueva posicin del objeto; el proceso es iterativo. 2. Sampling Importance Resampling [7]: es una variacin de Particle Filtering; se aplica a problemas de filtrado bayesiano recursivo donde es necesario un remuestreo. 3. Genetic Particle Filter [8]: rescata los principios de los algoritmos genticos aplicando mecanismos de seleccin natural. Introduce mayor diversidad en la poblacin durante la etapa de muestreo de Particle Filter. 4. Annealed Particle Filter [9]: variante de Particle Filter; adapta el mtodo para espacios de configuracin de dimensin alta, utiliza operadores de cruce como en los algoritmos genticos. 5. Hybrid Monte Carlo [10][5]: es una cadena de Markov de Monte Carlo con refinado por gradientes, se fundamenta en el principio bsico de la mecnica Hamiltoniana1. Es aplicada comnmente en espacios de dimensiones grandes donde Particle Filter no tiene buen rendimiento. Adems, suele utilizarse en experimentos de simulacin molecular.

Una propuesta interesante es el sistema de estimacin de movimiento implementado por Siddiqui y Medioni (2006)[11]. Interpretan el cuerpo de una persona como una composicin de
1

Enfoque de la mecnica donde las ecuaciones de movimiento vienen dadas por sistemas de ecuaciones diferenciales ordinarias de primer orden escritas en funcin de la energa total del sistema H (hamiltoniano).

figuras geomtricas; identifican el rostro, luego los brazos, y aplican un detector de piel (textura) y contornos para acotar la regin de inters; mejoraron la orientacin de los objetos aplicando mtodos de optimizacin por gradientes. Los sujetos en escena tenan los brazos descubiertos para simplificar los experimentos y siempre fueron vistas frontales o 2D. El siguiente diagrama refleja su propuesta completa:

Fig. 1.2: Sistema propuesto por Siddiqui y Medioni (2006) [11]. El estudio realizado por Higuera (2006)[12] aborda el problema de seguimiento desde una perspectiva ms analtica, en su investigacin esencialmente presenta dos algoritmos: 1. Gradientes espacio-temporales (detecta cambios en el patrn de grises de la imagen). 2. Segmentacin de imgenes en objetos (anlisis local que luego busca correspondencia entre objetos). Higuera concluye luego de implementar los algoritmos basados en gradientes que el rendimiento de estos puede aumentar si se complementan con una mejora en la resolucin de las imgenes, parmetros fijados en las ecuaciones y mtodos de clculo de gradiente. Por otra parte, el reconocimiento de rostros se ha estudiado en gran medida desde el punto 7

de vista de la seguridad biomtrica verificando identidades [13]. Este proceso se lleva a cabo en dos etapas: 1. Localizacin y deteccin del rostro. 2. Reconocimiento e individualizacin del rostro. Sin embargo, el reconocimiento de rostros posee enfoques que no dependen directamente de la identificacin en particular del individuo sometido a captura de rasgos faciales, estos son: identificacin de las emociones e identificacin de variaciones causadas por el paso del tiempo. Adems, estos enfoques poseen la ventaja de que: No es necesaria una cooperacin forzada de la persona a identificar, siendo totalmente transparente al usuario. No requieren validaciones contra base de datos de usuarios. Tienen bajo coste de hardware y software. La identificacin de emociones en el rostro recaba informacin asociada a las formas de ojos, nariz, boca, ubicacin de vrtices, arrugas, surcos y protuberancias. Los principales campos donde se ha desarrollado es la HCII (Human Computer Intelligent Interaction) [14][15][16][17] [18], y la medicina [19][2][20][21]. Estimaciones, como la edad, tambin podran inferirse de los mtodos empleados para detectar emociones si la atencin se centra en surcos o brillo de la piel. Quedan problemas por resolver a la hora de interpretar expresiones faciales, es complejo interpretar estados emocionales slo a partir de la cara, y es mucho ms complejo si se desconoce si la persona dice la verdad o no. El estudio de Ekman et al. (1975)[22] revel que el rostro transmite mensajes involuntariamente en fracciones de segundo, mensajes que son claros indicadores de lo que pueda estar sintiendo una persona. Considerando esto ltimo se estara en presencia de un nuevo mecanismo que adems de aplicar a sistemas HCII y medicina tambin aplicara a sistemas de seguridad y control en entornos pblicos.

1.2. Problema
Identificar estados emocionales en entornos pblicos donde las personas no colaboran activamente es una tarea de mayor complejidad que localizar objetos o cuerpos ya que tambin es necesario analizar caractersticas o rasgos que rpida y continuamente cambian de forma, sin embargo extraer informacin de dichos rasgos sera til para identificar estados psicolgicos potencialmente peligrosos y/o poco habituales para un contexto determinado.

1.3. Justificacin
Encontrar las caractersticas especficas para identificar emociones expresadas mediante gestos permitira aplicar este conocimiento a aplicaciones de seguridad (comportamiento de clientes en bancos, oficinas publicas, aeropuertos, estaciones de tren, etc.), por lo tanto poder identificarlas es una tarea de carcter crtico. Las situaciones potencialmente peligrosas o de nerviosismo debido a una posible intencin delictiva podran advertirse con antelacin y evitar escenarios de mayor riesgo si se presta atencin a eventos como: expresiones faciales reiteradas, movimiento de los ojos, contacto frecuente de manos con la cara, e incluso cambios en la temperatura corporal.

1.4. Objetivo general


Identificar y analizar las caractersticas ms relevantes para determinar estados de alerta emocionales y/o sanitarios.

1.4.1.
i.

Objetivos especficos

Definir el tipo de acciones que pueda ocasionar una alteracin en estados emocionales.

ii. Proponer la tecnologa necesaria para identificar en tiempo real estados emocionales anmalos en el rostro de un individuo.

1.4.2.

Diseo metodolgico

i. Profundizar la investigacin sobre el estado del arte del reconocimiento de emociones en rostros. ii. Definir claramente que tipo de acciones se buscarn en los videos. iii. Proponer un sistema automtico de deteccin, seguimiento y clasificacin de expresiones 9

faciales. iv. Validar los algoritmos y/o modelos de la propuesta, que permitan procesar las expresiones empleando recursos de BD pblicas usadas comnmente en aplicaciones biomtricas y video en tiempo real.

Nota:
Este trabajo de fin de master forma parte de un proyecto CENIT que comparte la Universidad Autnoma de Madrid y la empresa Vaelsys Formacin y Desarrollo dedicada principalmente a desarrollar soluciones, empleando visin artificial, para problemas de tratamiento, reconocimiento y clasificacin de imgenes. (Proyecto INTEGRA, ref:16/02/08, convocatoria CENIT 2008, divisin 2008-2011)

10

Captulo 2

Localizacin de rostros y formas


2.1. Introduccin
La deteccin del rostro es el primer paso de los algoritmos de reconocimiento de cara y por lo tanto es de crucial importancia que su desempeo sea lo mejor posible. Aqu se decide si la imagen o video incluye caras; si las incluye, se identifican sus posiciones y se segmentan separndolas del fondo de la imagen.

Fig. 2.1.: Identificacin de rostros. Los factores principales que se deben tener en consideracin en la deteccin de rostros son: luminosidad, orientacin, escala, textura y accesorios u objetos que puedan afectar a la geometra esperada (gafas, bufandas, etc.) [13]. Estos factores hacen que el proceso no sea sencillo. Como ya se mencion, para analizar una expresin facial el primer paso es detectar el rostro. Uno de los mtodos ms empleado debido a su simplicidad es el de plantillas, sin embargo, lo que se pretende detectar en estricto rigor es una forma que posee caractersticas especficas 2, as entonces obtener la forma es un concepto que se aborda comnmente mediante mtodos basados en:

Plantillas.

Entindase por forma las superficies y orientacin 3D de un objeto.

11

Movimiento. Tonalidad. Texturas. Visin estereoscpica. Conocimiento humano. Caractersticas invariantes. Apariencias. Modelos geomtricos. Modelos 3D e infrarrojos.

2.2. Mtodos basados en plantillas


Este tipo de mtodos se caracteriza por su sencilla implementacin. Calculan valores de correlacin entre una imagen de entrada y sus plantillas. Si los valores de correlacin alcanzan un determinado umbral se acepta que la imagen contiene una cara. Los valores de correlacin se calculan por separado para los contornos del rostro, ojos, boca y nariz. Generalmente emplean plantillas de vistas frontales, y esto suele traer problemas a la hora de detectar las caras ya que son muy sensibles a variaciones de orientacin, posicin, escala o forma [23]. En respuesta a dichas limitaciones se proponen mtodos multiresolucin, multiescala, sub-plantillas y plantillas deformables con relaciones de distancia preestablecidas [24] (fig.2.2).

Fig. 2.2: Plantilla compuesta de 16 regiones y 23 relaciones entre las regiones [24]

12

2.3. Mtodos basados en movimiento


El anlisis de movimiento, tambin llamado anlisis dinmico de imgenes, usa generalmente un cierto nmero de imgenes consecutivas, algunas veces dos o tres en secuencia. En este planteamiento comparan frames como en un anlisis de imgenes estticas y el movimiento se determina buscando correspondencias entre pares de puntos de inters en la secuencia. Existen tres grandes grupos de problemas relacionados con el movimiento desde un punto de vista prctico [1]: 1. Deteccin del movimiento. Es el problema ms simple, se trata de registrar cualquier movimiento detectado. Es til en el campo de la seguridad, se suele utilizar una simple cmara esttica. 2. Deteccin y localizacin de los objetos en movimiento. Una cmara se sita en una posicin esttica y los objetos se mueven en la escena, o la cmara se mueve y los objetos son estticos o ambas cosas a la vez. El problema caracterstico consiste en la deteccin del objeto, la deteccin de la trayectoria de su movimiento y la prediccin de su futura trayectoria. Ejemplos de esto son: la evolucin de una masa nubosa mediante secuencias de imgenes por satlite incluyendo la prediccin de su movimiento; o tambin el control y prediccin del trfico de vehculo en una ciudad. 3. Obtencin de las propiedades 3D de los objetos a partir de un conjunto de proyecciones 2D adquiridas en distintos instantes de tiempo de su movimiento. A la representacin bidimensional de un movimiento tridimensional se le llama campo de movimiento, donde cada punto tiene asignado un vector de velocidad correspondiente a la direccin del movimiento, velocidad y distancia a partir de un observador en una localizacin apropiada de la imagen. En las tres subsecciones que continan se describen mtodos frecuentemente usados en deteccin segn formas y movimiento.

2.3.1.

Flujo ptico

Una forma de analizar el movimiento es mediante la obtencin del flujo ptico, el cual requiere de intervalos temporales pequeos entre imgenes consecutivas y no ocurren cambios

13

importantes entre ellas. Para obtener el flujo ptico se necesita determinar la direccin y la velocidad del movimiento en todos los puntos de la imagen; el objetivo inmediato es determinar el campo de movimiento aunque el flujo ptico no siempre coincidir con l ya que los cambios de iluminacin tambin se reflejan en el flujo ptico [1]. En sntesis, el flujo ptico refleja los cambios de la imagen debido al movimiento durante un intervalo de tiempo dt, y el campo de flujo ptico es el campo de velocidad que representa el movimiento tridimensional de puntos de los objetos a travs del movimiento bidimensional de la imagen; sin embargo, calcular el flujo ptico puede resultar costoso si los objetos en movimiento son muchos o se mueven muy rpido.

2.3.2.

Deteccin de puntos de inters.

Esta tcnica trabaja bien incluso para intervalos de tiempo relativamente altos, al contrario del flujo ptico donde los intervalos ideales deben ser muy pequeos. El primer paso del mtodo es encontrar puntos significativos en todas las imgenes de la secuencia (puntos de borde, esquinas, etc.). Luego se aplica un proceso de emparejamiento que busca correspondencias entre dichos puntos de la secuencia. El resultado final es la construccin de un campo de velocidad cuya densidad depende del nmero de puntos de inters [1]. Thompson y Barnard (1981) proponen un proceso de bsqueda de correspondencia iterativo [25], que comienza con la deteccin de todos los posibles pares de correspondencias en imgenes consecutivas. Para reducir el nmero de posibles correspondencias se puede imponer un lmite a la velocidad. As, cada par bajo correspondencia tiene asignada una probabilidad de correspondencia. Este proceso termina si cada punto de inters en una imagen previa se corresponde precisamente con un punto de inters en la siguiente imagen y adems la probabilidad global de correspondencia, a) entre pares de puntos es significativamente ms alta que otras posibles correspondencias. b) o es mayor que un umbral prefijado. c) o proporciona un mximo (ptimo) de probabilidad de todas las posibles correspondencias.

2.3.3.

Diferencias

La sustraccin de imgenes adquiridas en distintos instantes puede ser suficiente para detectar movimiento si se supone que la cmara es estacionaria y que no hay cambios de

14

iluminacin. Una imagen de diferencias d(i,j), es una imagen binaria donde los valores de 1 representan reas de la imagen con movimiento, es decir, reas donde hay una diferencia sustancial entre los niveles de intensidad de las imgenes consecutivas f1(i,j,t1) y f2(i,j,t2). d i , j = 0, si f 1 i , j , t 1 f 2 i , j , t 2 1, de otro modo donde : umbral predeterminado. Un elemento d(i,j) de la diferencia de imgenes entre f1 y f2 puede tener valor 1 si f1(i,j) es un pixel de un objeto en movimiento y: a) f2(i,j) es un pixel esttico de fondo y viceversa. b) f2(i,j) es un pixel de otro objeto en movimiento. c) f2(i,j) es un pixel de una parte diferente del mismo objeto en movimiento. La imagen de diferencias puede calcularse a partir de otras caractersticas tales como: nivel medio de intensidad en alguna vecindad, texturas locales, etc.

2.4. Mtodos basados en tonalidad


La variacin de brillo sobre la superficie de un objeto es conocida como tonalidad. Sin embargo la tonalidad no slo se ve afectada por la forma del objeto, sino que tambin por las propiedades de reflectancia de la superficie y la distribucin de las fuentes de luz. Los mapas de reflectancia capturan la dependencia del brillo con la orientacin de la superficie, existe una correspondencia nica de la orientacin de la superficie a la reflectancia especificada por el mapa de reflectancia. Sin embargo la correspondencia inversa no es nica, un nmero infinito de orientaciones de superficies producen el mismo brillo, por lo tanto, un contorno constante conecta dicho conjunto de orientaciones en el mapa de reflectancia [1].

15

2.5. Mtodos basados en texturas


Extraer la profundidad a partir de la textura es una capacidad que poseemos los seres humanos se puede comprobar fcilmente al observar las siguientes figuras:

Fig. 2.3: Texturas 3D a distintos niveles de profundidad [1]. Dado que la percepcin de forma proviene de la observacin de la uniformidad, como del gradiente de textura derivado de la distorsin de los texels3, el problema puede abordarse desde la proyeccin en perspectiva o desde la proyeccin ortogonal. En localizacin de caras los mtodos de texturas han destacado por su rapidez y altos porcentajes de acierto, incluso sobre fondos complejos, como es el caso del estudio presentado por Dai y Nakano (1995) [26] donde emplean parmetros caractersticos de una matriz de dependencias de niveles de gris entre celdas de pxeles [27]; su modelo de texturas faciales busca caras sobre imgenes en color detectando tonos naranja. La ventaja de este mtodo es que es caps de localizar rostros que no tengan una vista frontal y es tolerante a oclusin por barba o gafas, adems de tener bajas tasas de falsos positivos en la escala YIQ4 y aciertos de hasta 98% en 30 imgenes con caras de 60 personas.

2.6. Mtodos basados en visin estereoscpica


La visin estereoscpica artificial tom como referencia el modelo estereoscpico biolgico. En estos sistemas el desplazamiento relativo de los ojos permite obtener la tercera dimensin mediante un proceso de triangulacin a partir de las 2 imgenes generadas por el mismo objeto de la escena 3D en cada ojo. Este fenmeno es posible porque el hecho de que los ojos estn desplazados entre s hace que las imgenes en cada ojo se muestren desplazadas segn la distancia de los objetos a los ojos.
3 4

Contraccin del ingls texture element. Espacio de color donde Y representa luminancia e I y Q informacin de crominancia.

16

Fig. 2.4: Sistema biolgico de visin estereoscpica [1].

Para extraer la correspondencia de las imgenes de un sistema estereoscpico existen dos tcnicas:

Por reas: utilizan la correlacin cruzada entre patrones de intensidad en la vecindad local de un pxel en una imagen con patrones tambin de intensidad en una vecindad correspondiente de un pxel en la otra imagen del par estereoscpico.

Por caractersticas: utilizan representaciones simblicas obtenidas de las imgenes de intensidad en lugar de las intensidades directamente. Las caractersticas utilizadas normalmente son:

Puntos de borde aislados. Cadenas de puntos de bordes. Regiones delimitadas por bordes.

En cualquier caso, y dependiendo del mtodo elegido, como se ver en la siguiente seccin, el proceso de visin estereoscpica puede requerir aun un paso de segmentacin adicional en el sentido de que una vez definidas las caractersticas a utilizar es necesario extraer de ellas ms informacin.

17

2.7. Mtodos basados en conocimiento


Este tipo de mtodos se centra en las caractersticas ms notorias de un rostro, intenta traducir el conocimiento humano sobre deteccin en reglas estrictas. Por ejemplo, es comn que una cara contenida en una imagen aparezca con dos ojos separados simtricamente, una nariz y una boca; as entonces, las relaciones entre estos rasgos pueden representarse mediante distancias relativas. Sin embargo la mayora de los esfuerzos se centran en reglas relacionadas con los niveles de gris en condiciones normales de luz, deduciendo de estos niveles la ubicacin las partes que conforman un rostro. El mtodo jerrquico de mosaicos [28] es un mtodo representativo de este grupo.

2.7.1.

Mosaicos jerrquicos

Aqu se definen tres niveles de reglas. En el Nivel 1, el mtodo intenta ajustar la cara en reas de 4x4 bloques, donde la dimensin de cada bloque es de n x n pixeles. Una vez encontrada una zona donde el rea de los bloques sea una posible candidata a cara se contina con el Nivel 2; en este nivel se aplica a las candidatas un histograma de ecualizacin lumnica para minimizar la sensibilidad de las reglas a las condiciones de luz y se detectan contornos subdividiendo cada bloque Nivel 1 en 4 sub-bloques, lo que produce reas de 8x8 bloques. Finalmente en el Nivel 3 nuevamente se divide cada bloque en 4 cuatro sub-bloques, obteniendo reas de 16x16 bloques de nxn pxeles que identifican boca, nariz y ojos.

Fig. 2.5: Imgenes procesadas con el mtodo jerrquico de mosaicos [28]. Este mtodo jerrquico basado en conocimiento posee 2 limitantes: 1) tiene una fuerte carga de clculo computacional ya que debe hacer clculos iterativos para estimar la dimensin correcta de los bloques Nivel 1, y 2) slo emplea bloques y no otras geometras. Sus tasas de reconocimiento son inferiores a otros mtodos y suele ser usarse slo cuando quedan pocas imgenes restantes de un tratamiento previo, u otros algoritmos de escaneo ya ejecutaron un filtrado previo e identificaron 18

candidatas.

2.8. Mtodos basados en caractersticas invariantes


Los mtodos de caractersticas invariantes tratan de reproducir la habilidad de los seres humanos para detectar caras y objetos en diferentes posturas y condiciones del ambiente empleando un mnimo esfuerzo. Asumen que la explicacin de este acto reside en que deben existir caractersticas que no cambian en el tiempo y que por lo tanto no se ven afectadas por ningn estmulo del entorno. Ests caractersticas pueden ser la presencia de cejas, nariz, boca y ojos las cuales son identificadas mediante algoritmos detectores de contornos. La desventaja de los mtodos de caractersticas invariantes es que suelen ser muy sensibles a la iluminacin, ruido y oclusin. Efectos de sombra podran distorsionar los lmites de rasgos como los que se identifican con las tcnicas de la seccin siguiente:

2.8.1.

Identificacin de rasgos faciales

Identificar caractersticas comunes a la mayora de los rostros ha entregado resultados como la propuesta de Sirohey (1993)[29] donde se segmenta el rostro ajustndolo a una estructura elptica. Este modelo busca usando el detector de contornos Canny [30] los mximos puntos de intensidad en la imagen que describan una curvatura, luego se segmentan los puntos de interseccin con los bordes aplicando criterios de continuidad, y finalmente se agrupan los segmentos de contornos que sean ajustables a la ecuacin estndar de la elipse. En una prueba con 48 imgenes 5 con objetos de fondo se alcanz un 80% de detecciones efectivas.

Fig. 2.6: Deteccin de contornos usando Canny [29]

Imgenes de una base de datos del MIT (Massachusetts Institute of Technology).

19

Entre los mtodos que mejor rendimiento han demostrado est el de Han et al. (2006)[31]. Este mtodo se centra en que los ojos y cejas son las caractersticas ms notorias del rostro y que por lo tanto son las ms aptas para la identificacin. La propuesta de Han est dirigida a sistemas de verificacin y la deteccin se divide en tres etapas, la primera consiste en segmentar la zona de los ojos detectando los pxeles donde la intensidad lumnica cambia significativamente. La segunda etapa usa estos segmentos como candidatos a ojos y trata de ajustar las relaciones de tamao, forma y direccin entre pares de candidatos, una vez que encuentra un par de candidatos que superan un umbral de relacin puede concluir que ha detectado un rostro. Sus resultados experimentales arrojaron que el porcentaje de detecciones efectivas alcanz aproximadamente un 94% para 130 imgenes de prueba. La no deteccin de caras se atribuye a tres factores: las caras de la imagen no superan la dimensin esperada (50x50 pxeles); no se puede identificar un par de ojos, lo que puede ocurrir por lesiones o por una imagen mal capturada; problemas de oclusin.

Fig. 2.7: Identificacin de mltiples rostros [31]

2.9. Mtodos basados en apariencias


Los mtodos basados en apariencias se caracterizan por el uso de tcnicas estadsticas y por aprender de sus mismas entradas. Esta clase de mtodos se pueden dividir en dos grupos: los que representa su conocimiento mediante modelos de distribucin probabilstica y los que implementan funciones discriminantes [23]. Los ms destacados son:

20

2.9.1.

Eigenfaces

Derivan del anlisis de componentes principales (PCA), interpretan cada imagen facial en escala de grises como un conjunto bidimensional de patrones brillantes y oscuros; a estas reas se les llama eigenface o cara propia [32]. Los patrones de niveles de gris se convierten y representan vectorialmente formando una base de vectores capaces de representar caras que tienen caractersticas comunes. El algoritmo que crea las eigenfaces consta de los siguientes pasos: 1. Preparar el set de entrenamiento. Las imgenes de caras deben tener la misma dimensin, estar en escala de grises, en forma vectorial, y las caras deben estar aproximadamente alineadas. Cada vector es una fila en una nueva matriz de imgenes N. 2. Substraer la media. Se calcula el promedio de grises de todas las imgenes y se substrae de cada imagen original. 3. Calcular la matriz de covarianzas de N y extraer sus autovectores y autovalores. 4. Elegir los componentes principales, es decir los autovectores (eigenfaces) con mayor autovalor asociado, los cuales se usarn para representar nuevas imgenes de entrada.

2.9.2.

Redes neuronales artificiales

Detectar caras con redes neuronales se considera como un problema de clasificacin entre dos tipos: rostro y no-rostro [13]. Para una imagen de N = M x N pxeles se requiere una red neuronal que tenga la misma cantidad N de neuronas de entrada. El mapa que corresponde a la imagen se traza en un nmero p de neuronas en capas ocultas, estas neuronas van definiendo por turnos el mapa de las neuronas de salida para que al menos una dispare la correspondiente cara en la base de datos del sistema. La capa oculta se considera un vector de caractersticas que expresa los rasgos faciales de forma concentrada, sobre todo si p es ms pequeo que N. El rendimiento de los sistemas de localizacin que emplean RNAs puede alcanzar tasas de localizacin efectiva superior al 95% [33], sin embargo son muy dependientes del nmero de capas, pesos entre las conexiones y determinacin de los parmetros de aprendizaje, por lo que se requiere precisin y rigurosidad en sus fases de diseo y desarrollo. Adems se necesitan muchos elementos 21

clasificables como rostro y no-rostro para entrenar la red, lo cual es un problema, es imposible recopilar todas las imgenes que no contienen caras. Por otra parte, en el caso de un sobreentrenamiento, ser difcil para la red alcanzar un mnimo global de su funcin de error y su ndice de convergencia decrecera [34]. Se recomienda utilizarlo junto a otras tcnicas.

2.9.3.

Mquinas de soporte vectorial

Las maquinas de soporte vectorial o SVM (Support Vector Machine) implementan la siguiente idea: mapear los vectores de entrada x en un espacio de caractersticas de dimensin superior Z por medio de un mapeo no lineal elegido a priori. En este se construye un hiperplano separador ptimo [35]. Mientras mayor sea el margen mejor ser la generalizacin en la clasificacin.

Fig. 2.8: Hiperplano separando elementos vlidos de no vlidos [35]

Las SVM implementan el principio de minimizacin del riesgo estructural (SRM). Este principio de induccin se fundamenta en el hecho de que el error de generalizacin est acotado por la suma del error de entrenamiento y un trmino de intervalo de confianza que depende de la dimensin de Vapnik-Chervonenkis6. As entonces, el objetivo del SRM es minimizar el lmite superior del error de generalizacin en vez del principio de minimizacin de riesgo emprico (usado en la RNAs para minimizar el error de entrenamiento) [35]. El entrenamiento de una SVM es equivalente a resolver un problema de programacin cuadrtica con restriccin lineal, lo que implica que la solucin alcanzada por SVM es nica, ptima y ausente de mnimos locales a diferencia de las RNA que durante el entrenamiento requieren optimizacin no lineal, corriendo el riesgo de ser atrapadas por mnimos locales [36].
6

Cardinalidad del mayor conjunto de puntos que el algoritmo o modelo puede separar.

22

Osuna et al. (1997) muestran un sistema de deteccin de rostros que usa SVMs y que alcanza rendimientos de hasta 97% de localizaciones correctas en imgenes de alta calidad donde existe un solo rostro [37]. En imgenes con muchos rostros y de calidad variada la localizacin desciende a 74.2% de efectividad. Entre sus cualidades destacan que es capaz de detectar caras con rotaciones de 10 aproximadamente.

Fig. 2.9: Localizacin de rostros usando SVMs [37].

2.9.4.

Hidden Markov models

Una cara puede dividirse intuitivamente en varias regiones como frente, ojos, nariz, boca y mentn. Segn esta clasificacin se podra identificar un rostro si las regiones se detectan en un orden apropiado, y cada regin correspondera a un estado dentro de una HMM. Los mtodos basados en HMM generalmente tratan los patrones faciales como una secuencia de vectores donde cada vector es una franja de pxeles [24]:

Fig. 2.10: Regiones de una cara usando HMMs [24]. Una secuencia consiste en la observacin de todos los valores de intensidad de cada bloque.

23

Los estados de salida corresponden a las categoras a las que pertenecen las observaciones. Las HMM se han aplicado al reconocimiento de la cara y a su localizacin. Cardinaux et al. (2006)[38] presentan un sistema de localizacin automtica y reconocimiento de cara usando HMM tradicionales y una variante 2D donde cada franja es una cadena de Markov (fig.2.11). La localizacin automtica la lograron usando un mtodo de deteccin de contornos propuesto por Frba y Ermst (2004)[39] que puede alcanzar un ndice superior al 90% de localizacin correcta.

Fig. 2.11: HMM 2D [38].

2.10. Mtodos basados en modelos geomtricos


Entre los mtodos de localizacin de rostros en tiempo real, destacan tambin los modelos geomtricos tales como los ASMs (Active Shape Models) y AAMs (Active Appearance Models) que suelen verse como una versin perfeccionada los ASMs [40][41]. Actualmente los modelos de apariencias activas son los ms usados. Esta tcnica pertenece al grupo de modelos paramtricos generativos, los cuales han sobresalido en el pasado por su uso en seguimiento de rostros en videos (face tracking), estimacin de poses para interfaces de usuario en tiempo real, lectura de labios, y reconocimiento de expresiones. Los ASMs comparan un modelo de puntos con una nueva imagen usando variante del algoritmo de maximizacin de la esperanza [42]. La bsqueda se realiza en torno a la posicin actual de cada punto para encontrar un punto cercano que mejor ajuste un modelo del punto de referencia. Los parmetros del modelo de formas y que controlan las posiciones de los puntos se actualizan y luego se desplazan a los mejores puntos de la imagen real. Por otra parte los AAMs manipulan modelos completos de apariencia, representando variacin de forma y de textura de la 24

regin cubierta por el modelo, siendo capaces de generar imgenes de objetos completamente sintticas. AAM usa la diferencia entre la imagen sintetizada actual y la imagen objetivo para actualizar sus parmetros. Cootes et al. (1999) comparan los dos algoritmos [40], muestran los resultados experimentales y establecen que ASM es ms efectivo y rpido en la ubicacin de los puntos caractersticos de un rostro, sin embargo, AAM tiene una mejor correspondencia con la textura de la imagen tratada. Las tres diferencias claves entre ASM y AAM son: 1. ASM slo usa modelos de textura de la imagen en pequeas regiones cercanas a cada punto de referencia. AAM usa un modelo de apariencia de toda la regin (generalmente dentro de un espacio convexo alrededor de los puntos). 2. ASM busca alrededor de su posicin, por lo general a lo largo de los perfiles normales a su frontera. AAM simplemente extrae muestras en virtud de su posicin actual. 3. ASM intenta minimizar la distancia entre su modelo de puntos y los correspondientes encontrados en el resto de la imagen. AAM trata de minimizar la distancia entre el modelo sintetizado y la imagen objetivo. Segn estas diferencias el mtodo ms robusto sera el AAM y que a continuacin se detalla.

2.10.1.

AAM

Un AAM es un modelo estadstico integrado que combina un modelo de variacin de forma con un modelo de variaciones de la apariencia en un fotograma normalizado en escala de grises. Corresponder a una imagen supone encontrar los parmetros del modelo que minimizan la diferencia entre dicha imagen y la sntesis del modelo proyectado en la imagen. La dificultad est en que el nmero de parmetros puede ser potencialmente grande [43]. Para construir el AAM hace falta un conjunto de entrenamiento con imgenes etiquetadas con los puntos significativos marcados en cada ejemplo y en posiciones clave para los rasgos caractersticos. Todos los vectores de caras se normalizan en un sistema de coordenadas comn y se aplica PCA para construir el modelo de la forma. En la fase de reconocimiento se hace el proceso inverso [44]. Los AAMs tienen una variacin de forma lineal, lo que significa que una forma puede 25

expresarse como combinacin lineal de otros vectores de formas. Una variacin en un vrtice de un modelo incide directamente en todo el resto de los vectores.

Fig. 2.12: Representacin de un rostro usando AAMs [45]. El algoritmo que sigue AAM se puede resumir en los siguientes pasos [41]: 1. Proyectar la muestra de textura en el modelo: g s = Tu 1 ( g im ) 2. Evaluar el vector de error: r = g s g m y el error actual: E = | r | 2 rT r rT 3. Calcular desplazamientos, p = Rr ( p ) ; R = p p p 4. Actualizar los parmetros del modelo: p p + k p ; inicialmente k = 1, 5. Calcular los nuevos puntos: X ' y el nuevo modelo de textura g 'm 6. Obtener una nueva imagen a partir de los nuevos puntos y genera g ' im 7. Calcula un nuevo vector de error: r ' = Tu' 1 ( g 'im ) g ' m 8. Si r ' < E se acepta los nuevos parmetros
Si r ' > E reintentar con k = 0.5 , k = 0.25 etc.
2 2 1

Una secuencia grfica de lo que en concreto realiza el algoritmo luego de 18 iteraciones se ve en la figura 2.13.

Fig. 2.13: Iteraciones en AAM [41]. 26

2.11. Mtodos 3D e infrarrojos


En las imgenes 2D la apariencia de un rostro puede variar por efectos de iluminacin o posicin, lo que implica mayores desafos para los sistemas de reconocimiento. Una buena forma de solucionar estos problemas es usar modelos de caras en tres dimensiones. Los modelos 3D no tenan mucha aceptacin debida a su complejidad y alto coste computacional que involucran, sin embargo, actualmente la amplia gama y disponibilidad de sensores 3D en tiempo real [15] han hecho que los modelos resurjan. Manejan variaciones de iluminacin y expresiones faciales y pueden dividirse en dos categoras: mtodos 3D simples que usan slo representaciones de la superficie o forma del rostro, y mtodos que usan formas 3D e imgenes 2D. Zhao y Chellapa (2006) [46] exponen un sistema hbrido 2D+3D donde se captura mediante eigenfaces una imagen 2D y con sensores una imagen 3D; normalizan en posicin, rotacin y escala, usando la punta de la nariz como punto de encuentro entre ambos tipos de capturas. Los resultados experimentales demostraron que el uso de esta tcnica hbrida puede alcanzar rendimientos superiores al 95% a diferencia de solo imgenes 2D que no superaban el 90%. Si se aumentan la cantidad de muestras que forman el espacio de caras el rendimiento incluso alcanz el 98% de verificacin efectiva. Otra de las tcnicas que se est abriendo paso en la deteccin de caras son las de sensores infrarrojos (IR). La ventaja principal de estas tcnicas sobre los sensores visibles, es que las imgenes IR son independientes de la iluminacin ambiental, la luz IR solamente se emite y no se refleja [47]. Esta caracterstica las convierte en una buena alternativa para el reconocimiento de patrones. Se propone que el mtodo ms conveniente para reconocimiento IR son las SVM por las razones siguientes: 1. Las caractersticas faciales en imgenes suelen ser representadas por formas suaves a diferencia de las imgenes visuales. 2. Las imgenes IR son independientes de la luz ambiente, no requieren preprocesamientos como correccin del gradiente de iluminacin, ecualizacin histograma o DCT7 para los datos de entrenamiento, los datos de temperatura pueden ser directamente aplicados.

Transformada del coseno.

27

3. La tcnicas para acelerar el proceso localizacin por ejemplo, la extraccin de piel tienen menor coste computacional ya que el espectro de temperaturas siempre se encontrar en un rango entre 30 y 40; as entonces, reducir el espacio de bsqueda se lograra fijando un umbral. Wang y Sung (2007) plantean que la informacin extrable del espectro de temperaturas no es suficiente para capturar rasgos que definan una emocin; proponen mezclar imgenes IR con imgenes tradicionales para formar estructuras geomtricas 3D realistas [48]. Las esquinas de los ojos y boca las detectan en la imagen visible, y la posicin de la cabeza a partir de la imagen IR. La figura 2.14 muestra la orientacin de la cabeza detectada por un sensor de orientacin espacial (en rojo) y el sistema que proponen (en azul). Los resultados son muy similares.

Fig. 2.14: Comparacin de rendimientos software vs. sensor hardware de orientacin espacial [48].

28

Captulo 3

Reconocimiento de emociones
3.1. Introduccin
La informacin extrada de los rasgos faciales es regularmente de carcter geomtrico (asociada a las formas de ojos, nariz, boca, etc. y ubicacin de vrtices de la boca u ojos) y relacionada con la apariencia o texturas (arrugas, surcos y protuberancias). Estas son las bases del reconocimiento de emociones, el cual ha crecido sobre todo en el campo de HCII (Human Computer Intelligent Interaction) [14][15][16][17][18], y adems es foco de inters en el apoyo de diagnsticos psiquitricos y psicolgicos [19][49][20][21]. La estimacin de la edad de una persona puede derivarse de los mtodos empleados para detectar emociones, un adulto por lo general tiene muchas lneas de expresin o surcos, sus expresiones neutrales suelen aparentar tristeza, y el brillo de su piel es inferior al que puede tener un nio. Los avances para detectar emociones en datos extrados de la voz se han desarrollado de la misma manera [50][51][52] siendo complemento de las tcnicas basadas en el rostro y formando parte de sistemas multimodales [53][44][54]. Sin embargo este captulo describir slo los relacionados con caractersticas faciales.

3.2. Estudios de la psicologa.


Los estudios de Darwin sobre emociones [55] tomaron dos cursos distintos, el de la perspectiva etolgica8 y el de la perspectiva psicolgica; ambas corrientes crecieron separadas, sin embargo convergieron en 1994 con Fridlund y su crtica al Programa de Expresin Facial (P.E.F.) 9 [56][57]. Este programa consta de una serie de hiptesis, teoras y mtodos, pero es sorprendentemente difcil encontrar una aceptacin completa del conjunto, dado que cada autor presenta su propia visin sobre un programa que evoluciona rpidamente [57]. No obstante a que muchos autores presentan su propia visin frente al PEF, la mayora de ellos estn de acuerdo en que la principal conclusin del programa es el carcter de universalidad de
8 9

Estudio cientfico del carcter y modos de comportamiento del hombre.

Nombre dado al conjunto de investigaciones sobre expresiones faciales basadas en emociones bsicas: alegra, desagrado, ira, tristeza, sorpresa, miedo.

29

las expresiones faciales al demostrar una emocin [57], es decir: 1. En todos los grupos humanos ocurren los mismos patrones de movimientos faciales. 2. Observadores de distintas sociedades atribuyen una misma emocin a patrones establecidos como universales. 3. Esos patrones universales son por lo tanto manifestaciones de todas esas emociones en todas las sociedades humanas.

La tabla siguiente intenta predecir similitudes entre culturas en interpretacin de expresiones faciales sin postular un sistema de seas innato; a este conjunto de supuestos, advertencias y reglas de prediccin se le denomina en psicologa universalidad mnima.
Se supone que: 1. Los patrones de los movimientos de msculos faciales ocurren en todos los seres humanos. 2. Los movimientos faciales estn correlacionados con estados psicolgicos (p.e.: acciones, preparacin para acciones, estados emocionales, estados cognitivos).

3. La mayora de las personas pueden inferir algo del estado psicolgico de otras
a partir de sus movimientos faciales. 4. Las personas de culturas occidentales tienen la creencia de que tipos especficos de acciones faciales son expresiones de tipos especficos de emociones.

Se advierte que: 1. Acciones faciales no son necesariamente seales. 2. La accin facial no es necesaria o suficiente para una emocin. Una accin facial no necesariamente est ms asociada con emociones que con otro estado psicolgico. 3. Las inferencias hechas en una cultura, o por un individuo, no necesariamente coincidirn exactamente con inferencias hechas en otra cultura o por otro individuo. 4. Las culturas no necesariamente comparten creencias occidentales sobre asociaciones especficas entre emociones y acciones faciales.

30

5. Creencias occidentales sobre la asociacin entre expresiones faciales y emociones no son necesariamente vlidas.

Se predice que: 1. Fotografas de movimientos faciales sern asociados a un estado estado psicolgico con el acuerdo de que es ms que una casualidad. 2. Las personas, en algunas ocasiones, son precisas en inferencias que hacen sobre la base de movimientos faciales. 3. Habrn similitudes entre culturas que deducen desde los movimientos faciales.

Tabla 1: Universalidad mnima [57]. Actualmente los psiclogos clasifican las emociones en categoras discretas, en un lenguaje comn y universal. La categora ms sencilla comprende seis emociones bsicas, resultantes de estudios inter-culturales [44][58][59]: felicidad, tristeza, miedo, ira, asco/disgusto, y sorpresa.

Tabla 2: Resultados del estudio inter-cultural hecho por Ekman [59]. Cuando se interacta con otra persona inevitablemente se juzga qu tan feliz o no feliz se encuentra nuestro interlocutor y qu tan somnoliento o excitado est. Ante esto, Russell y Fernndez-Dols (1997) presentan dos dimensiones para estudiar las emociones y su relacin con sentimientos afectivos: placer y excitacin (fig.3.1) [57]. Con estas nuevas dimensiones se pretende establecer niveles de predominancia entre ellas ampliando la cantidad de emociones clasificables:

31

Figura 3.1: Juicios Placer-Excitacin para sentimientos afectivos [57].

3.3. Desafos actuales


Por qu se cometen faltas al interpretar la expresin facial de las emociones? Cmo se puede decir cmo se siente una persona a partir de su cara, y cmo se puede saber si su expresin facial es genuina o falsa?. En verdad estas son las preguntas que siguen marcando el rumbo de las investigaciones en reconocimiento de expresiones. Ekman y Friesen (1975)[22] concluyeron a partir de sus investigaciones que la cara proporciona tres tipos de seales para transmitir ms de un tipo de mensaje o informacin:

Estticas: incluyen aspectos ms o menos permanentes de la cara como el color de la piel, forma de la cara, estructura de los huesos, cartlagos, depsitos de grasa, forma y localizacin de los rasgos faciales (cejas, ojos, nariz, boca).

Lentas: cambios en la apariencia de la cara que tienen lugar gradualmente con el paso del tiempo. Adems del desarrollo de las arrugas permanentes, hay tambin cambios en el tono muscular, la textura de la piel e incluso cambio de color de la piel por paso de los aos, principalmente en edades avanzadas.

Rpidas: se producen por movimientos de los msculos faciales, dando como resultado cambios temporales en la apariencia de la cara, cambios en la localizacin y tamao de los rasgos faciales y arrugas temporales. Estos cambios se reflejan en la cara durante unos 32

segundos o incluso durante fracciones de segundo. Las seales rpidas son las ms fciles de cambiar o disfrazar inhibiendo los msculos asociados o cubriendo parte del rostro; los engaos generalmente se encuentran en este tipo de seales, sin embargo, las investigaciones han demostrado que se pueden hacer acertados juicios sobre las emociones bsicas a partir de seales rpidas [58]. Cuando ocurren sentimientos transitorios tales como felicidad, sorpresa, ira, miedo, etc. los msculos faciales se contraen y hay cambios visibles en la apariencia de la cara. Adems de lo transmitido por las seales rpidas, el rostro tambin posee otros mltiples mensajes a transmitir. La cara emite mensajes sobre emociones, humor, actitudes, carcter, inteligencia, atractivo, edad, sexo, raza y posiblemente sobre ms aspectos; sin embargo las tcnicas de deteccin de emociones estudian esencialmente los mensajes emitidos por las seales rpidas que es donde ms informacin existe. Las personas suelen ocultar sus emociones ms intensas cuando estn junto a otras y tambin cuando han crecido y absorbido reglas culturales como Los nios no lloran. o No debes mirar a tus padres de manera desafiante si te regaan. , que suelen incorporarlas cuando son menores pero que de algn modo condicionan su libre expresin cuando adultos [22]. Es mucho ms fcil ocultar lo que se revela con palabras que lo que se revela con el rostro debido a factores como velocidad, las expresiones son involuntarias y el nivel de retroalimentacin es inferior; en cambio en las palabras podemos corregirnos fcilmente solos o con ayuda, adems de que se ha aprendido a hablar preparndonos muy bien en gramtica y cantidad de vocabulario que manejamos [22]. Al intentar ocultar expresiones se pueden distinguir tres categoras [22]: Leakage: cuando una persona intenta ocultar una expresin pero aun as da seales de ella. Intento de traicin de un sentimiento. Poker-face: consigue ocultarla absolutamente. Deception clues: indicios de que la emocin que se muestra no es convincente y se advierte que algo est mal en ella.

33

3.4. Tcnicas de investigacin para inferir emociones.


La clasificacin anterior puede ser interpretada como demasiado subjetiva ya que no define una unidad de medida. Las expresiones faciales han sido investigadas como una herramienta para comprender la regulacin de emociones en salud y enfermedades e investigar sus sustratos neuronales [60][61]. El anlisis de expresiones faciales consiste de dos subproblemas: reconocimiento de expresin y cuantificacin de la expresin, donde ambas requieren un modelamiento facial. Reconocer expresiones involucra clasificar la expresin como una de varias posibles emociones [62]. Por otra parte, en cuantificacin de la expresin, se necesita cuantificar la intensidad de la emocin dentro de un conjunto de regiones del rostro, establecidas para comprender as cunto es la contribucin de cada regin. El anlisis automtico de expresiones ha atrado la atencin de la visin computacional debido a su importancia para investigaciones clnicas, pero los esfuerzos se han centrado en reconocimiento de expresin y no en cuantificacin [63].

3.4.1.

Mtodos de cuantificacin de emociones


Regional Volumetric Difference (RVD)

Verma et al. (2005) [63] proponen un mtodo para cuantificar expresin que se aplica considerando al rostro como un conjunto de regiones con lmites bien definidos. Un cambio de expresin en la cara lo caracterizan y cuantifican mediante una combinacin de deformaciones elsticas (expansiones y contracciones); luego de cada deformacin se da lugar a una transformacin geomtrica 2D, esta transformacin se utiliza para registrar las acciones en cada regin y contrastarlas con una plantilla de expresin neutral. Al compararlas obtienen dos resultados: 1. Un conjunto de escalares que representan la magnitud de desplazamiento para cada pxel considerando la diferencia entre una plantilla (cara neutral) y una nueva imagen. Este valor se calcula mediante la funcin: RVDF =det S s ; donde:

34

S : matrz de transformacin que contiene desplazamientos de los pixeles entre lasimgenes. s : punto en la imagen de un sujeto. S s = Jacobiano de ' S ' evaluado en cada punto ' s ' de la imagen.

Fig. 3.2: Mapa RVD normalizado [63]. 2. El vector de desplazamiento de la deformacin que caracteriza la direccin y el movimiento de cada pxel durante el cambio de expresin.

(a)

(b)

(c) Fig. 3.3: (a)Cara neutral, (b) con expresin y (c) mapa de vectores de deformacin asociado [63].

35

RVD slo se ha empleado para cuantificar imgenes de actores profesionales expresando emociones. La validacin experimental de Verma et al. (2005) se realiz sobre 11 imgenes de felicidad, 6 de tristeza, 8 de miedo y 15 de ira; para la clasificacin utilizaron PCA. Los resultados que obtuvieron son [63]:

Felicidad: todas clasificadas correctamente pero muy cercanas a ira. Tristeza: 3 clasificadas correctamente, 2 clasificadas como ira y 1 como miedo. Ira: 12 clasificadas correctamente, 1 como tristeza y 2 como miedo. Miedo: 4 clasificadas correctamente, 2 como tristeza y 2 como ira pero con baja intensidad.

Facial Action Coding System (FACS) El modelo FACS propuesto por Ekman y Friesen (1978)[64] intenta responder a la ausencia de mtricas para clasificacin de emociones bsicas con una serie de puntos a observar en el rostro. Actualmente es casi un estndar en lo que refiere a clasificacin de la expresin facial y est presente en investigaciones del rea de la psicologa y en el rea de la animacin 3D [65][66]. FACS describe todas las actividades visuales en base a 46 unidades de accin nicas (AUs10), adems de varias categoras de cabeza y posiciones de ojos y movimientos. Es importante resaltar que aunque FACS surge en la anatoma no existe una correspondencia 1:1 entre los grupos de msculos y las AUs, esto se debe al hecho de que un msculo puede actuar en diferentes formas o contraerse en distintas regiones para producir acciones visibles diferentes. Un ejemplo claro de esto son los msculos frontales; la contraccin de la zona media de ellos slo levanta las esquinas interiores de las cejas (produciendo la AU 1), mientras que la contraccin de la porcin lateral de los frontales levanta las cejas desde su parte externa (produciendo AU 2). En el ANEXO I se puede observar la lista completa de AUs presentes en FACS. La comparacin ms frecuente de los resultados que pueda entregar FACS es con los resultados de evaluaciones de actividad electrofisiolgica medida con electromiografas faciales (EMG)[62]. Los EMG miden potenciales elctricos en los msculos de la cara para luego inferir
10

AUs, del ingls Action Units.

36

contracciones musculares. La ventaja principal de los EMG es su capacidad para detectar actividad muscular que a simple vista no puedes ser captada por el ojo humano y que por lo tanto no puede ser codificable mediante sistemas como FACS. Sin duda esto puede convertir a los EMG en el sistema ideal para obtener medidas, sin embargo, es un sistema demasiado invasivo y puede provocar reacciones musculares que interfieran con las esperadas de estmulos externos. Otro problema de los EMG es que las seales de grupos musculares pueden verse afectadas por potenciales de msculos cercanos, teniendo como resultado final una mala clasificacin de la expresin [62].

Fig. 3.4: Msculos codificados en FACS [64]

37

Facial Expression Coding System (FACES) FACES se propuso principalmente por dos necesidades [67] : 1. Una codificacin facial que est alineada con un modelo dimensional de la emocin. Kring y Sloan (2003) comentan en The Facial Expression Coding System (FACES) que varios investigadores han sostenido que la expresin afectiva consta de dos grandes dimensiones: valencia (agradable/desagradable) y excitacin (relajante/activante); as mismo, otros autores tambin distinguen que la variacin entre experiencias emocionales es posible capturarla por dos dimensiones. 2. La reduccin de tiempos de codificacin de las emociones. Examinar pequeos segmentos puede impedir una correcta evaluacin del comportamiento expresivo y requiere a priori decisiones sobre qu segmentos son los ms idneos para producir el comportamiento ms expresivo, lo que suele ser difcil. FACES no necesita una codificacin individual de cada msculo, sino que realiza una codificacin del conjunto de msculos involucrados en la expresin.

FACES entrega informacin de frecuencia, intensidad, valencia y duracin de la expresin facial. La seleccin de variables se bas en teora y previos estudios empricos. Adopt el estilo descriptivo de Ekman y define una expresin como cualquier cambio en la cara, pasando desde un rostro neutral a uno no neutral para luego volver a uno sin expresin. Cuando ocurre esta situacin, se inicia un control de frecuencia de expresiones. Luego, codificadores humanos evalan la valencia (positiva o negativa, Tabla 3), la intensidad de cada expresin detectada y la duracin de cada expresin. Finalmente, se calcula un ndice de expresividad global para cada segmento y se pueden hacer juicios sobre la emociones especficas expresadas en cada segmento [67].

Positive
Happy Delighted Glad Amused Pleased

Negative
Miserable Distressed Annoyed Jittery Nervous 38

Content Satisfied Calm Serene Excited Astonished Cheerful Surprised Active

Angry Gloomy Anxious Afraid Tense Alarmed Frustrated Disgusted Depressed

Content Hostile Tabla 3: Valencias positivas y negativas [67]

3.4.2.

Anlisis automtico de expresin facial

El anlisis automtico tambin llamado AFEA11 obtiene medidas cuantitativas automticamente. Los desafos de este tipo de anlisis estn en dos factores principales: 1. Las expresiones faciales varan segn apariencias, grado de plasticidad, morfologa y frecuencia de las expresiones. 2. Cuantificar automticamente la intensidad de una expresin es complejo, sobre todo cuando las expresiones son muy sutiles. Por ejemplo, FACS emplea reglas para calificar las intensidades de las AUs, pero finalmente esta calificacin est sujeta a un juicio subjetivo.

Pantic y Rothkrantz (2000)[68] evaluaron la factibilidad de que un sistema artificial pueda alcanzar la capacidad del ser humano de identificar emociones con un mnimo esfuerzo aparente. Identificaron tres aspectos en el problema: deteccin de rostro, extraccin de la informacin de la expresin facial, y clasificacin de la expresin facial que es la ms estudiada de las tres debido a su utilidad en aplicaciones HCI12. Sin embargo, la mayora de los sistemas no contemplan bello facial ni gafas lo que los limita a aplicaciones poco realistas, adems Pantic y Rothkrantz sostienen que no existe certeza de que las emociones bsicas de Ekman y Friesen en las que se sostienen la mayora de los desarrollos sean suficientes para clasificar todas las emociones que pueda expresar un rostro y sobre todo si desean sistemas HCI independientes de la persona.
11 12

AFEA, del ingls Automated Facial Expression Analysis. HCI, del ingls Human Computer Interface.

39

Los mtodos AFEA se dividen en tres grupos:


Basados en imgenes estticas. Basados en videos. Basados en modelos geomtricos. Basados en superficies 3D e infrarrojos.

Mtodos basados en imgenes estticas Extraen caractersticas desde imgenes individuales y crean clasificadores para reconocer expresiones faciales. Las caractersticas comnmente usadas son geometra, textura y combinaciones de ambas. Se han agrupado las caractersticas geomtricas en permanentes y transitorias. Las caractersticas permanentes incluyen posiciones de labios, ojos, cejas, mejillas y arrugas o marcas de expresin producto de los aos; un artculo reciente donde se expone un anlisis sobre caractersticas permanentes es el de Lucey et al. (2007) el que presenta una fusin de un AAM con el sistema FACS [45]. Por otra parte, las caractersticas transitorias incluyen marcas y arrugas que no se distinguen en reposo pero que aparecen con las expresiones, estas texturas pueden obtenerse mediante tcnicas como clculo de intensidad de la imagen, diferencia entre imgenes, deteccin de bordes, y wavelets [69]. Para reconocer expresiones faciales sutiles tanto las expresiones calculadas mediante componentes principales como las de diferencia de imagen requieren una alineacin precisa que no es fcilmente alcanzable en la realidad. Las caractersticas de contorno se usan a menudo para describir surcos o lneas de expresin, pero no sirven demasiado para detectar expresiones sutiles. Las wavelets de Gabor calculadas a partir de la apariencia facial describen informacin espacial y de frecuencia, adems son eficientes en sistemas destinados a localizacin de rostro [70] as como en reconocimiento de expresiones [71][72]. Experimentos como el de Zhang (2003) [13], han demostrado que la fusin de mtodos aplicando texturas tales como wavelets de Gabor o PCA con tcnicas geomtricas pueden proveer mejor rendimiento que usarlas por separado. Luego, para reconocer la expresin facial, las caractersticas extradas son entradas en clasificadores como: Nearest Neighbor [73], redes 40

neuronales [74], SVM [72], redes bayesianas [75], y Adaboost [72][69][76][77]. De estos clasificadores el que ha dado mejores resultados, segn la publicaciones recientes, es Adaboost. Las tablas siguientes muestran el porcentaje de acierto de un modelo hbrido Haar+Adaboost frente a un modelo Gabor+SVM en un problema de localizacin de unidades de accin FACS en ojos, cejas y boca, en imgenes de 24x24 y 64x64 pxeles:

Tabla 4: Exactitud de reconocimiento de los clasificadores Gabor+SVM y Haar+AdaBoost[77].

Tabla 5: Tiempos de extraccin de caractersticas de Gabor y Haar [77].

Tabla 6: Tiempos de clasificacin de SVM frente a AdaBoost [77].

Mtodos basados en video Cohen et al. (2003) afirman que la informacin temporal que se pueda obtener desde un vdeo mejorara la precisin de reconocimiento sobre el uso de imgenes simples [78]. Sin embargo slo pocas propuestas, como la de Wang et al. (2008), han empleado esta informacin [69]. 41

Wang et al. (2008)[69] destacan que un aspecto importante en los mtodos basados en video es mantener la precisin de seguimiento. Varios modelos deformables como los musculares [79], de alambres 3D [78], mallas faciales [80][81], redes potenciales [82], ASMs y formas geomtricas [63][69] se usan para el seguimiento de rostro. Aunque se ha demostrado que los sofisticados modelos faciales deformables mejoran la precisin del seguimiento, y en consecuencia mejoraran tambin la precisin del anlisis de la expresin facial [83], no hay experimentos que muestren que el modelo deformable sea superior a los dems [69]. Resulta evidente que los mtodos basados en video pueden capturar ms imgenes tiles para identificar emociones, cambios sutiles en el rostro, o ciertas tendencias; no obstante, mientras ms grande sea la cantidad de informacin a analizar se hacen necesarios mtodos que tengan mayor autonoma e independencia de un especialista.

Mtodos basados en modelos geomtricos Saatci y Town (2006)[84] presentan un esfuerzo para reconocer el gnero y la emocin expresada (alegra, enfado, tristeza y neutralidad). El mtodo usado para extraer las caractersticas de los rostros fue AAM y para clasificar dichas caractersticas se usaron SVMs. Para inicializar la bsqueda del AAM se emple una implementacin del detector de rostros de Viola-Jones [85]. Luego para la etapa de entrenamiento se us un conjunto de imgenes de caras frontales, todas ellas anotadas (marcadas con 58 puntos en las regiones de inters) y donde los sujetos mostraban cada una de las cuatro emociones adems del efecto en sus caractersticas fsicas (vello facial, gnero y raza lo que mejora la capacidad de generalizacin del sistema). La forma de clasificar las expresiones en [84] se centr en una arquitectura de SVMs en cascada:

Fig. 3.5: Clasificacin de expresiones en cascada [84]. 42

Y los resultados se pueden ver en la siguiente matriz de confusin donde destaca claramente la expresin de felicidad frente a las dems:

Fig. 3.6: Matriz de confusin para el modelo SVM en cascada [84].

Mtodos basados en superficies 3D e infrarrojos Sugimoto et al. (2000)[86] intentan identificar mediante infrarrojos las transiciones entre distintas emociones expresadas, y concluyen que fcilmente se podran detectar transiciones cuando realmente no existe ninguna (falsos positivos). Las causas de las falsas transiciones estaran en movimientos musculares voluntarios; para eliminar esta influencia proponen construir un modelo geomtrico normalizado 3D con una vista frontal y expresin neutral para luego analizar las variaciones de temperatura y detectar precisamente qu regiones tienen informacin vlida al momento de cambiar de expresin; la figura 3.5 describe el algoritmo de diferencias propuesto por Sugimoto et al. (2000) y en la figura 3.6 se puede observar una adaptacin de una maya 3D a la imagen trmica.

43

Fig. 3.7: Diagrama de flujo para analizar los cambios de temperatura en el rostro [86]. Para estudiar las imgenes trmicas emplearon los sistemas termogrficos TVS-3500 y TVS8100 de Nippon Avionics13 ya que se requera la deteccin ms precisa de diferencias de temperatura dentro de una resolucin espacial de 300x300 pxeles y con hasta 256 niveles de temperatura.

Fig. 3.8: Normalizacin de un rostro empleando IR y modelos geomtricos 3D [86].

13

http://www.avio.co.jp/english/

44

Captulo 4

Propuesta para sistemas de seguridad y control de trnsito de pasajeros


4.1. Resultados de la investigacin sobre el estado del arte
En la etapa de localizacin del rostro lo que se desea es un mtodo rpido y con un alto porcentaje de acierto, mientras ms rpido se localice el rostro mayor ser la cantidad de frames disponibles para extraccin y anlisis de expresiones en la etapa posterior. Algunos autores destacan la rapidez de los mtodos de localizacin por color o texturas y los estadsticos o basadas en reglas [26][27]. Otros, como Osuna et al. (1997)[37], proponen soluciones ms complejas como clasificacin de apariencias mediante SVMs que alcanzan niveles de hasta un 97% de correcta localizacin en imgenes de alta calidad donde hay solo un rostro, pero niveles cercanos a 77% donde hay ms de uno [37] y clasificadores AdaBoost sobre caractersticas de Haar [69] cuyos resultados, extrayendo caractersticas y clasificando expresiones superan en tiempo y precisin a los SVM [57] como se observ en las Tablas 4, 5 y 6. En el punto 3.4.2 se cit una investigacin que usa cmaras IR trmicas para interpretar expresiones y capturar transiciones entre ellas [86], aunque esta tcnica tambin puede ser muy til en localizacin de rostros en tiempo real si analizan las imgenes desde la perspectiva de color o textura. En lo que concierne netamente a identificacin de expresiones la mayora de los autores concuerdan en la existencia del carcter de universalidad mnima de las expresiones faciales al demostrar una emocin [57] ya que: 1. En todos los grupos humanos ocurren los mismos patrones de movimientos faciales. 2. Observadores de distintas sociedades atribuyen una misma emocin a patrones establecidos como universales. 3. Esos patrones universales son por lo tanto manifestaciones de todas esas emociones en todas las sociedades humanas.

45

Una buena interpretacin de dichas emociones est sujeta al contexto en el cual se desenvuelve un individuo, es posible que una persona que est a punto de llorar de muestras de tristeza en su rostro, pero el llanto puede estar ocasionado por dolor fsico, por tristeza, presin psicolgica o por un intenso momento de felicidad. Para el caso de control de pasajeros, el contexto est bien definido.

4.2. Sistema propuesto


El esquema para localizacin y seguimiento propuesto por Wang et al. (2008)[69] (fig. 4.1) es una solucin que se adecua a las necesidades de localizacin y seguimiento, lo que la convierte en una solucin vlida para el problema que se presenta en este TFM. Adems, puede responder a problemas de oclusin y de caras en orientaciones no frontales al contrastar la regin donde se detect la cara con los puntos caractersticos del AAM.

Fig. 4.1: Diagrama de flujo de la propuesta de Wang et al.(2008)[69] Sin embargo, modelos de carcter geomtrico, como los AAM, requieren de hardware potente que sea capaz de ejecutar su algoritmo en tiempo real, y ms aun si se estn observando expresiones o microexpresiones14. Por este motivo se propone en este TFM replantearse la identificacin de expresiones y comenzar desde los elementos bsicos que logran transmitir una emocin tales como: cejas, ojos y boca. Aplicaciones de mensajera instantnea recurren a dichos elementos bsicos y los ofrecen para que sus usuarios expresen con imgenes en lugar de palabras. Algunos ejemplos de esta forma de expresar y su semejanza con una expresin real son:

14

Expresin breve e involuntaria. Su duracin se estima en fracciones de segundo.

46

Fig. 4.2: Formas visuales clsicas para expresar tristeza, ira y sorpresa respectivamente. Para individualizar los elementos de expresin en un rostro real se puede aprovechar su caracterstica principal: resaltan en el marco general del rostro, y por lo tanto tienen un contorno bien definido. Citando el modelo FACS de Ekman y Friesen (1978)[64] las AUs involucradas en este caso seran:

Cejas:

AU1: levantamiento cejas parte interior.

Fig. 4.3: Unidad de accin 1.

AU4: bajada de cejas.

Fig. 4.5: Unidad de accin 4

Boca:

AU26: cada del mentn.

Fig. 4.6: Unidad de accin 26

AU27: apertura de la boca.

47

Fig. 4.7: Unidad de accin 27

Se propone en este documento extraer los elementos usando operadores morfolgicos. Las operaciones morfolgicas son operaciones realizadas sobre imgenes binarias que describen formas. Estas operaciones toman como entrada una imagen binaria regresando como resultado una imagen tambin binaria donde el valor de cada nuevo pxel se obtiene en funcin del valor del pxel original y de sus vecinos. Entonces, eligiendo apropiadamente la forma de los vecinos a considerar (elemento estructurante), pueden construirse operaciones morfolgicas sensibles a una forma en particular. Las operaciones morfolgicas usadas frecuentemente son: Dilatacin: adiciona pxeles con valor 1 en la frontera de cada objeto. La adicin se hace segn la forma del elemento estructurante que sita su centro en cada pxel original del objeto, luego el pxel del origen tomar el mximo valor de sus vecinos, es decir, el valor 1 si existe en la vecindad. En la figura siguiente se observa la aplicacin de dos elementos estructurantes sobre un objeto:

Fig. 4.8: Dilatacin. Erosin: elimina de la frontera pxeles con valor 1. Al igual que en la dilatacin la forma del elemento estructurante determina la forma final del objeto y el pxel analizado convertir su valor de 1 a 0 si en su vecindad existe algn elemento 0. Aunque puede considerarse el operador inverso

48

de la dilatacin, en la prctica no lo es ya que elimina objetos pequeos que pueden desaparecer absolutamente de la imagen:

Fig. 4.9: Erosin. Apertura: es la aplicacin de una erosin seguida de una dilatacin manteniendo el elemento estructurante.

Fig. 4.10: Apertura. Cierre: aplicacin de un operador de dilatacin seguido de una erosin manteniendo el elemento estructurante:

Fig. 4.11: Cierre.

El algoritmo propuesto para concretar la clasificacin de la expresin basada en contornos

49

queda definido en trminos generales por los siguientes pasos: Capturar un frame desde un video o cmara. Localizar y extraer del frame una subimagen que contenga slo el rostro a analizar15.

Convertir la imagen del rostro a escala de grises.

Binarizar la imagen fijando un umbral sobre el cual los pixeles que superen X nivel de gris sean todos de color negro y bajo el umbral todos blancos.

Aplicar el filtro morfolgico dilate sobre la imagen binarizada. Se obtiene una imagen con cejas, ojos y boca ms notorias.

15

Esta tarea la realiza el clasificador AdaBoost sobre caractersticas de Haar que es parte de las bibliotecas de distribucin pblica OpenCV y de una versin compilada para su uso en Matlab. http://www.mathworks.com/matlabcentral/fileexchange/19912

50

Aplicar el algoritmo de deteccin de contornos Canny (utilizado en el EIT I (2008)[87]).

Suprimir de la imagen los objetos de menor tamao que no superen un umbral de cantidad de pixeles que lo definen.

Unir segmentos de lneas rotos mediante el operador morfolgico bridge. Etiquetar individualmente los objetos restantes y calcular los centroides de cada uno. Localizar los dos objetos menos distantes del eje X (segn coordenadas de la imagen total) e identificarlos como las cejas. El eje de coordenadas siempre tendr el origen situado en el pxel superior-izquierdo de la imagen.

Localizar el objeto con mayor rea en la parte inferior de la imagen e identificarlo como el objeto que representa la boca.

51

Extraer el grado de inclinacin que poseen los objetos cejas y determinar segn el mismo si se expresa tristeza o ira.

Extraer el grado de apertura de la boca y determinar si expresa sorpresa. Al extraer caractersticas desde los rostros se observ que el contorno de la boca suele ser

ms difcil de extraer que los contornos de cejas y ojos, por lo tanto los operadores morfolgicos no deberan aplicarse de igual forma para la imagen completa. As, se plante la posibilidad de segmentar la imagen y generar dos subimagenes: una superior que contenga contornos de cejas y ojos, y una inferior que contenga slo la boca. Estas operaciones de divisin de imagen y aplicaciones de operadores por separado puede considerarse como un proceso previo a la determinacin de la emocin. En resumen las etapas de pre-procesado son:

52

Y el diagrama de flujo de la solucin propuesta es:

53

54

4.3. Pruebas de rendimiento


El algoritmo se implement sobre Matlab ya que los operadores morfolgicos empleados estn incorporados en esta herramienta. La interfaz grfica tiene la siguiente apariencia:

Fig. 4.7: Prototipo identificador de expresiones.

4.3.1.

Pruebas con imgenes

Para evaluar el rendimiento se utilizaron 90 imgenes de la base de datos de JAFFE 16. Esta base de datos contiene slo imgenes clasificadas dentro de las seis emociones bsicas, donde todos los sujetos fotografiados son mujeres japonesas. Para probar la aplicacin desarrollada se consideraron expresiones de sorpresa, ira y tristeza.

Fig. 4.8: Imgenes de JAFFE representando ira, sorpresa y tristeza respectivamente.


16

http://kasrl.org/jaffe.html

55

De 90 imgenes sometidas a prueba (10 sujetos, 3 imgenes para cada expresin del sujeto, misma probabilidad a priori para cada clase: 33.33%) la aplicacin identific expresiones en 48, y el 69% de ellas fueron bien clasificadas. La matriz de confusin asociada a los resultados es la siguiente: Ira Ira Tristeza Sorpresa 15 3 3 Tristeza 0 11 4
Sorpresa

N.C. 15 11 16

0 5 7

Tabla. 7: Matriz de confusin para pruebas sobre imgenes de JAFFE (NC: no clasificadas).

Al comparar las caractersticas de las imgenes clasificadas frente a las clasificadas errneamente y no clasificadas se distinguen aspectos que afectan la prediccin:

Rotacin de la cabeza. Expresiones muy sutiles. Sombras producidas por la posicin de la fuente de iluminacin y que generan contornos con caractersticas similares a los de boca y cejas, esto ocasiona la deteccin de falsos objetos de inters.

Fig. 4.9: Imgenes de JAFFE no clasificadas. Adems, segn la matriz anterior, las predicciones para tristeza y sorpresa son las que ms variacin presentan, y en particular la prediccin entre ambas. Algunas imgenes de tristeza fueron clasificadas como sorpresa ya que al extraer el contorno de la boca se obtuvo una apertura superior al umbral, sin embargo esa relacin de apertura puede ser un falso positivo debido a que la boca puede no estar abierta sino que el sujeto en observacin podra tener labios muy gruesos o poco 56

alargados. En segundo lugar, imgenes de sorpresa tambin fuero clasificadas como tristeza, esta situacin sucede donde actan dos AUs al mismo tiempo: apertura de boca y cada interior de las cejas, lo que a una percepcin visual simple puede verse como un nivel extremo de sorpresa. Se analizaron tambin fotografas, descargadas desde internet, de sujetos con piel morena pero en estos casos identificar correctamente las cejas es ms complejo.

4.3.2. Pruebas con videos Se hizo pruebas con 3 videos de sujetos distintos, con condiciones de iluminacin uniforme y expresando las tres emociones contempladas en este TFM con expresiones neutrales entre cada emocin. Los umbrales de discriminacin para los contornos debieron ser ajustados a las condiciones de luz del entorno ya que las imgenes en escala de grises se mostraban con menos contraste comparadas con las imgenes de JAFFE.

Fig. 4.10: Efectos de iluminacin en las imgenes en gris. Frame de video (izquierda), fotografa de JAFFE (derecha). Los resultados en videos mostraron prcticamente el mismo porcentaje de acierto que en imgenes nicas. Considerando que en video se tiene la ventaja de que se disponen de 30 frames por segundo lo que aporta mayor informacin al considerar la variable tiempo se opt por incorporar a la aplicacin un buffer de emociones detectadas (fig.4.11) con capacidad para 3 frames (100 milisegundos aprx.). Si el buffer se completa con una misma emocin el algoritmo asumir esa emocin como la vlida y la informar por pantalla. De esta forma los frames clasificados con una expresin que no corresponde a la realidad no se omiten y por lo tanto el resultado final depende de la continuidad de una misma ocurrencia. Las expresiones correctamente clasificadas (desde su inicio hasta su fin) alcanzaron hasta un 75%. de prediccin correcta. 57

Inicio de expresin
Frame N

Fin de expresin
Frame N+4

tristeza

ira

ira IRA

ira

tristeza

Fig. 4.12: Buffer de emociones detectadas.

58

Captulo 5

Conclusiones y proyeccin
Sobre la investigacin y la propuesta
Las emociones ms usadas en estudios sobre expresiones y sistemas automticos de reconocimiento son las que se proponen como las seis bsicas: felicidad, miedo, ira, tristeza, desagrado y sorpresa. En un control de seguridad (por ejemplo, una ventanilla de chequeo de identificacin) identificar extremos en la expresin de dichas emociones de forma similar a como lo presentan Russell y Fernndez-Dols (1997)[57] y como se vio en el punto 3.2 podra ser una tarea menos compleja y que un agente de seguridad quiz pueda identificar fcilmente si est siempre poniendo atencin a los rostros; no obstante, cuando se trata de seguridad en medios de transporte las intenciones de causar daos estn ocultas y generalmente slo se dejan ver en breves espacios de tiempo o en pocos frames de una grabacin. El prototipo desarrollado logra clasificar tres tipos de expresiones: tristeza, ira y sorpresa con hasta un 75% de efectividad en videos, slo con informacin sobre cejas y boca y sin emplear algoritmos geomtricos o de aprendizaje artificial, esto lo convierte en parte en una solucin prctica y de baja carga computacional. Queda informacin importante por rescatar de las imgenes y que puede aumentar el indicador de acierto, esta informacin se encuentra en los desplazamientos musculares de mejillas y frente, incluso las expresiones ms sutiles implican dichos movimientos. Dividir la imagen en un segmento que comprenda cejas y ojos, y en un segmento que slo comprenda la boca facilit la discriminacin entre las distintas expresiones abordadas en este trabajo, procesar ambos segmentos independientemente es una ventaja. Al aplicar umbrales uniformes sobre toda la imagen se rescata en perfectas condiciones bordes del segmento superior o inferior, pero difcilmente de ambos a la vez. Usar operadores morfolgicos para extraer caractersticas faciales es una buena opcin si lo que se busca es anlisis en tiempo real, reduccin de tiempos de ejecucin y seguimiento de los rasgos ms notorios. Los efectos provocados por la fuente de luz, tales como sombras o excesos de brillo seran solucionables aplicando tratamientos de ecualizacin sobre los frames. Los objetos 59

como gafas de gran tamao inevitablemente ocluyen ojos y cejas y por lo tanto inducen a errores, pero el ambiente donde se pretende implantar la solucin es un entorno de seguridad supervisado y ocultar el rostro no est permitido. Factores como rotacin de la cabeza y rasgos o expresiones muy sutiles son cuestiones que afectan la identificacin de las expresiones mediante la aplicacin desarrollada. El primero es factible de solucionar mejorando el mdulo de localizacin de rostro, pero el segundo entra en un campo muy subjetivo donde es recomendable un modelo geomtrico capaz de hacer seguimiento de texturas con mayor precisin que la deteccin de contornos. Incorporar el buffer de emociones detectadas facilit la interpretacin de lo que expresa un sujeto al centrarse en la continuidad de las expresiones en pequeas fracciones de segundo. Adems es un indicador global y ms certero que slo analizar una imagen. Esta propuesta comprende la interpretacin de expresiones considerables como anmalas: tristeza, ira y sorpresa; las que deberan poner en alerta a personal de seguridad. La suma de estas expresiones a los gestos observados por el personal tales como tocarse la nariz u orejas, desviar la mirada frecuentemente seran una clara seal de actividad poco usual en un pasajero sobre el que debera centrarse la atencin.

Trabajo futuro
Incorporar la identificacin de microexpresiones que complementen al prototipo, haciendo un seguimiento al desplazamiento muscular del rostro con modelos como los vistos en el punto 3.4 y en particular el modelo geomtrico deformable aplicado sobre videos (propuesta por Wang et al. (2008)[69] y cuya base es un AAM). En este caso podra aplicarse el AAM slo a una parte del rostro, como por ejemplo, los ojos, cejas y mejillas; al reducir el rea de cobertura tambin se reducir la cantidad de triangulaciones del algoritmo de Cootes y en consecuencia se obtendr un procesado de la imagen ms rpido que al usar el AAM sobre toda la cara y habran menos desplazamientos que cuantificar. As entonces, segn los artculos publicados [45][69][77][80][81] [74] los mejores mtodos de cuantificacin seran el sistema FACS y los mapas de desplazamiento vectorial como el de la tcnica RVD [63], ya que permitiran mayor aproximacin a las microexpresiones al ir al detalle de los cambios en el rostro en lugar de tener una visin global.

60

Incorporar un mdulo de tratamiento de imagen que controle los efectos negativos de las fuentes de luz para no detectar contornos de falsas cejas o bocas producidos por sombras, se mejorara as la prediccin del algoritmo. Dado que el sistema est basado en reglas, los umbrales de binarizacin y de los operadores morfolgicos son estticos y probablemente no sean los ptimos para cada rostro que se analice. Frente a esta situacin sera interesante aplicar tcnicas de tratamientos de imgenes o someter el ajuste de dichos umbrales a un algoritmo gentico que se encargue de encontrar los mejores valores para la etapa de clasificacin. Realizar pruebas de rendimiento con capturas de sujetos expresando en forma completamente natural y en entornos lo menos controlado posible. Lo cual aportara a un enfoque de desarrollo con bases reales y no actuadas. Finalmente, otra lnea que se desprende de aqu es una posible investigacin sobre identificacin de estados de neutralidad emocional. No todos expresamos neutralidad de la misma forma, algunos tienen rasgos de ira o tristeza muy marcados pero no necesariamente es lo que sienten, as entonces identificar el estado de neutralidad para cada sujeto permitira crear sistemas de interaccin mucho ms personalizados tanto en el mbito comercial o mdico.

61

62

Bibliografa
[1] Pajares, G.; de la Cruz, J., Visin por computador, Ed. Ra-Ma, 2 Edicin 2007. ISBN:9788479878311 [2] Marr, D., Visin Una investigacin basada en el clculo acerca de la representacin y el procesamiento humano de la informacin visual, Ed. Alianza, 1985. ISBN:8420665126 [3] Goldstein, B., Sensacin y percepcin, Ed. Paraninfo, 6 Edicin 2006. ISBN:9788497323888 [4] Pantrigo, J., Anlisis biomecnico del movimiento humano mediante tcnicas de visin artificial [Online], Biomecnica. Comunicaciones Symposium SIB, pp.38-43 N10 Vol.2 2006. Available: http://www.escet.urjc.es/~jjpantrigo/papers/ElDesarrolloDelPaqueteBiomSoft.pdf [5] Chen, Z., Bayesian Filtering: From Kalman Filters to Particle Filters, and Beyond, Tech. Rep. [Online], McMaster University, 2003. Available: http://www.dsi.unifi.it/users/chisci/idfric/Nonlinear_filtering_Chen.pdf [6] Gordon, N.; Salmond, D.; Smith, A., Novel approach to nonlinear/nongaussian bayesian state estimation [Online], Radar and Signal Processing, IEEE Procs. F pp.107-113 , 1993. ISSN:0214-9915 Available: http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=210672 [7] Smith, A.; Gelfand, A., Bayesian statistics without tears: A sampling-resampling perspective [Online] [Online], The American Statistian Vol.46 N2 pp.84-88, 1992. Available: http://dga.jouy.inra.fr/dga/internet/ESeminaire/BayesianStatistics.pdf [8] Higuchi, T., Monte Carlo filter using the Genetic algorithm operators [Online], Statistical Computation and Simulation Vol.59 N1 pp.1-23, 1997. Available: http://www.springerlink.com/content/r87034270w044v6h/ [9] Doucet, A.; Godsill, S.; Andrieu, C., On sequential Monte Carlo sampling methods for Bayesian filtering [Online], Sequential Monte Carlo Methods in Practice Vol.10 N3 pp.197-208, 2000. Available: http://people.cs.ubc.ca/~arnaud/doucet_godsill_andrieu_sequentialmontecarloforbayesfiltering.pdf [10] Duane, S.; Kennedy, D.; Pendleton, B.; Roweth, D., Hybrid Monte Carlo [Online], Physics Letters B Vol.195 N2 pp.216-222, 1987. Available: http://dx.doi.org/10.1016/0370-2693(87)91197-X [11] Siddiqui, M.; Medioni, G., Robust Real-Time Upper Body Limb Detection and Tracking [Online], Procs. 4th ACM international workshop on Video surveillance and sensor networks, pp.53-60 2006. ISBN:1-59593-496-0 Available: http://portal.acm.org/ft_gateway.cfm? id=1178792&type=pdf&coll=GUIDE&dl=GUIDE&CFID=58843309&CFTOKEN=76057618 [12] Higuera, O., Images sequence movement estimation [Online], Revista Colombiana de Tecnologas de Avanzada, N7 Vol.1 2006. ISSN:1692-7257 Available: http://www.unipamplona.edu.co/unipamplona/hermesoft/portalIG/home_18/recursos/01_general/documentos/1605200 8/rev_tec_avan_art10_vol1_num7.pdf [13] Zhang, D., Automated Biometrics Technologies and systems, Ed. Kluwer Academic, 2000. ISBN:0792378563 [14] Sun, Y.; Sebe, N.; Lew, M.; Gevers, T., Authentic Emotion Detection in Real-Time Video [Online], Procs. of the Computer Vision in Human-Computer Interaction, pp.94-104 Vol.3058 2004. ISBN: 978-3-540-22012-1 Available: http://www.springerlink.com/content/u504gjnb8rnp1c4x/ [15] Jaimes, A., The Face in Activity Analysis and Gesture Interfaces [Online], Procs. Computer Human Interfaces 2006, 2006. Available: http://www.bartneck.de/workshop/chi2006/papers/ajaimes_hcif06.pdf [16] Branco, P., Usability Indicators - In Your Face [Online], Procs. Computer Human Interaction, http://www.bartneck.de/workshop/chi2006/papers/branco_hcif06.pdf [17] Chatting, D.; Thorne, J., Faces as Content [Online], Procs. Human Computer Interaction, http://www.bartneck.de/workshop/chi2006/papers/chatting_chif06.pdf 2006. Available: 2006. Available:

[18] Lyons, M., HCI and the FACE [Online], Procs. of CHI 2006, April 2227, 2006, Montreal, Canada. pp.1671-1674 , 2006. ISBN:1-59593-298-4 Available: http://portal.acm.org/ft_gateway.cfm?

63

id=1125759&type=pdf&coll=GUIDE&dl=GUIDE&CFID=58672730&CFTOKEN=44479745 [19] Machado, P.; Beutler, L.; Greenberg, L., Emotion Recognition in Psychotherapy: Impact of Therapist Level of Experience and Emotional Awareness [Online], Journal of Clinical Psychology pp.39-57 Vol.55, 1999. ISSN:00219762 Available: http://www3.interscience.wiley.com/cgi-bin/fulltext/30004809/PDFSTART [20] Browndyke, J., Neuropsychosocial factors in emotion recognition: Facial expressions [Online], Telepsychology Solutions, 2002. Available: http://www.neuropsychologycentral.com/interface/content/resources/page_material/resources_general_materials_page s/resources_document_pages/neuropsychosocial_factors_in_emotion_recognition.pdf [21] Pal, P.; Iyer, A.; Yantorno, R., Emotion Detection from Infant Facial Expressions and Cries [Online], Procs. IEEE International Conference Acoustics, Speech and Signal processing, pp.721-724 Vol.2 2006. Available: http://aniyer.googlepages.com/pal_icassp06.pdf [22] Ekman, P.; Friesen, W., Desenmascarando la cara (Traduccin), Ed. s.n., 1975. [23] Rossenfeld, A.; Chellapa, R., Face recognition a Literature Survey [Online], ACM Computing Surveys Vol.35 N4 pp.399458, 2003. Available: http://citeseerx.ist.psu.edu/viewdoc/download? doi=10.1.1.3.3531&rep=rep1&type=pdf [24] Yang, H.; Kriegman, D.; Ahuja, N., Detecting Faces in Images: A Survey [Online], Procs. IEEE Trans. On Pattern Analysis And Machine Intelligence Vol.24 N1 pp. 34-58, 2002. Available: http://vision.ai.uiuc.edu/mhyang/papers/pami02a.pdf [25] Thompson, W.B.; Barnard, S.T., Computer Lower level estimation and interpretation of visual motion [Online], Computer Vol.14 N8 pp.20-28, 1981. Available: http://ieeexplore.ieee.org/stamp/stamp.jsp? tp=&isnumber=&arnumber=1667466 [26] Dai, Y.; Nakano, Y., Face-Texture model based on SGLD and its application in face detection in a color scene [Online], Pattern Recognition, pp.1007-1017 N6 1995. Available: http://linkinghub.elsevier.com/retrieve/pii/0031320395001395 [27] Haralick, R.; Shanmugam, K.; Dinstein, I., Textural Features for Image Classification [Online], IEEE Trans. On systems, man, and cybernetics Vol.3 N6 pp.610-621, Shinshu University; University of Kansas 1973. Available: http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?&arnumber=4309314 [28] Yang, G.; Huang, T. S., Image and Vision Computing [Online], Human Face Detection in a Complex Background Vol.20 N20 pp.257-264, 2002. Available: http://linkinghub.elsevier.com/retrieve/pii/0031320394900175 [29] Sirohey, S. A., Human face segmentation and identification, Tech. Rep. [Online], University of Maryland, 1993. Available: http://citeseerx.ist.psu.edu/icons/pdf.gif;jsessionid=8768EC49104AF65CBECF3D9A7220DCDF [30] Canny, J.F., A computational approach to edge detection [Online], IEEE Trans. on Pattern Analysis and Machine Intelligence Vol.8 N6 pp.679-698, 1986. Available: http://portal.acm.org/citation.cfm?id=11275 [31] Han, Chin-Chuan; Mark Liao, Hong-Yuan; Yu, Kuo-Chung; Chen, Liang-Hua, Fast face detection via morphology-based pre-processing [Online], Lecture Notes In Computer Science, pp.469-476 2006. ISBN:3-54063508-4 Available: http://www.springerlink.com/content/2u511r2875225k4g/ [32] Sirovich, L.; Kirby, M., Low-dimensional procedure for the characterization of human faces, Procs. Journal of the Optical Society of America Vol.A N4 pp.512-524, 1987. Available: http://www.opticsinfobase.org/viewmedia.cfm? uri=josaa-4-3-519&seq=0 [33] Haddadnia J.; Faez K.; Ahmadi, M., N-Feature Neural Network Human Face Recognition [Online], Procs. from the 15th International Conference on Vision Interface, pp.1072-1082 N12 Vol.22 2002. Available: http://linkinghub.elsevier.com/retrieve/pii/S0262885604000794 [34] Armengol, M., Tesis: Anlisis comparativo de mtodos basados en subespacios aplicados al reconocimiento de caras [Online], Universidad de Valencia, 2006. Available: http://www.uv.es/marjoari/pdf/definitivo.pdf [35] Vapnik, V., The nature of statistical learning theory, Ed. Springer, 1995.

64

[36] Villasana, S.; Seijas, C.; Caralli, A.; Villanueva, C., Estimador de resistencia rotrica usando mquinas de vectores de soporte [Online], Revista Ingeniera UC Vol.11 N3 pp.25-32, 2004. Available: http://redalyc.uaemex.mx/src/inicio/ArtPdfRed.jsp?iCve=70711304&iCveNum=9464 [37] Osuna, E.; Freund, R.; Giros, F., Training Support vector Machines: an Application to Face Detection [Online], Computer Vision and Pattern Recognition pp.130-136 , 1997. ISBN:0-7695-2528-8 Available: http://ieeexplore.ieee.org/search/wrapper.jsp?arnumber=609310 [38] Cardinaux, F.; Sanderson, C.; Bengio, S., User Authentication via Adapted Statistical Models of Face Images [Online], IEEE Trans. on Signal Processing Vol.54 N1 pp.361-373, 2006. Available: http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=1561601 [39] Frba B., Ernst A., Face detection with the modified census transform [Online], Procs. 6th IEEE International Conference on Automatic Face and Gesture Recognition pp.91-96, 2004. Available: http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=1301514 [40] Cootes, T.F.; Edwards, G.; Taylor, C.J., Comparing Active Shape Models with Active Appearance Models [Online], British Machine Vision Conference, pp.173-182 Vol.1 1999. Available: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.33.2465 [41] Cootes, T.F.; Taylor, C.J., Statistical models of appearance for medical image analysis and computer vision [Online], Image processing. Conference, pp.236-248 N3 Vol.4322 2001. Available: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.5.7256 [42] Hartley; Dempster; McLachlan and Krishnan, EM Algorithm [Online], Biometrics, pp.174-194 1958,1977,1997. Available: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.9.9735&rep=rep1&type=url&i=0 [43] Cootes, T.F.; Edwards, G.; Taylor, C.J., Active Appearance Models [Online], IEEE Trans. on Pattern Analysis and Machine Intelligence, pp.681-685 N6 Vol.23 2001. ISSN:0162-8828 Available: http://www.computer.org/portal/web/csdl/abs/trans/tp/2001/06/i0681abs.htm [44] Zhihong, Z.; Maja, P.; Roisman, G.; Huang, T. S., A Survey of Affect Recognition Methods: Audio, Visual and Spontaneous Expressions [Online], Procs. of the 9th international conference on Multimodal interfaces, pp.126-133 2007. Available: http://dx.doi.org/10.1145/1322192.1322216 [45] Lucey, S.; Ashraf, A.B.; Cohn, J.F., Investigating Spontaneous Facial Action Recognition through AAM Representations of the Face [Online], Carnegie Mellon University, 2007. Available: http://www.ri.cmu.edu/pub_files/pub4/lucey_simon_2007_2/lucey_simon_2007_2.pdf [46] Zhao, W.; Chellappa, R., Face processing, modelling and methods, Ed. Academic Press, Inc, 2006. [47] Xiaoyu, W.; Jihong, C.; Pingjiang, W.; Zhihong, H., Infrared Human Face Auto Locating Based on SVMand A Smart Thermal Biometrics System [Online], Procs. of the Sixth International Conference on IntelligentSystems Design and Applications pp.1066-1072 Vol.2, 2006. ISBN:1-59593-298-4 Available: http://www.computer.org/portal/web/csdl/doi/10.1109/ISDA.2006.253759 [48] Wang, J.; Sung, E., Facial Feature Extraction in an Infrared Image by Proxy With a Visible Face Image [Online], IEEE Trans. On Instrumentation And Measurement Vol.56 N5 , 2007. Available: http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=1301514 [49] Martnez, F.; Montero, J.; De la Cerra, J., Sesgos cognitivos en el reconocimiento de expresiones emocionales de voz sinttica en la alexitimia [Online], Psicothema 2002 pp.344-349 Vol.14, 2002. ISSN:0214-9915 Available: http://www.psicothema.com/pdf/730.pdf [50] Luengo, I.; Navas, E.; Hernez, I.; Snchez J., Reconocimiento automtico de emociones utilizando parmetros prosdicos [Online], Procesamiento del Lenguaje Natural N35 pp.13-20, Temple University 2005. Available: http://www.sepln.org/revistaSEPLN/revista/35/02.pdf [51] Kwon, O.; Chan, K.; Hao, J.; Lee, T., Emotion Recognition by Speech Signals [Online], Eighth European Conference on Speech Communication and Technology, 2003. Available: http://inc2.ucsd.edu/~leelab/pdfs/ES030151.pdf

65

[52] Planet, S.; Morn, J.; Formiga, L., Reconocimiento de emociones basado en el anlisis de la seal de voz parametrizada [Online], Actas da 1a Conferncia Ibrica de Sistemas e Tecnologias de Informao, pp.837-854 Vol.2 2006. ISBN:978-989-20-0271-2 Available: http://www.salle.url.edu/~splanet/material/pdf/planet06.pdf [53] Castellano, G.; Kessous, L.; Caridakis, G., Multimodal emotion recognition from expressive faces, body gestures and speech [Online], Artificial Intelligence and Innovations 2007: from Theory to Applications, pp.375-388 Vol.247 2007. Available: http://www.springerlink.com/content/p7154u362j677195/fulltext.pdf [54] Busso, B.; Deng, Z.; Yildirim, S.; Bulut, M., Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information [Online], ACM 6th International Conference on Multimodal Interfaces pp.205-211 , 2004. ISBN:1-58113-995-0 Available: http://portal.acm.org/citation.cfm?id=1027968 [55] Darwin, Ch., The expression of the emotions in man and animals, Ed. The classics of psychiatry & behavioral sciences library, 1872. [56] Fridlund, A. J., Human facial expression: An evolutionary view, Ed. Academic Press, Inc, ISBN:0122676300 [57] Russell, James A.; Fernndez-Dols, J.M.l, The Psychology of Facial Expression, Ed. Camb.U.P., 1997. [58] Ekman, Paul., Universals and cultural differences in facial expressions of emotion, Journal of Personality and Social Psychology Vol.4 N53 pp.712-717, 1972. [59] Elfenbein, H.; Ambady, N., Universals And Cultural Differences In Recognizing Emotions [Online], Current Directions In Psychological Science Vol.12 N5 pp.159-164, 2003. Available: http://www.tufts.edu/~nambad01/Universals%20and%20cultural%20differences%20in%20recognizing %20emotions.pdf [60] Phillips, M.; Young, A.; Senior, C., Brammer; M.; Andrew, C.; Calder, A.; Bullmore, E.; Perrett, D.; Rowland, D.; Williams, S.; Gray, J.; David, A., A specific neural substrate for perceiving facial expressions of disgust, Nature N389 pp.495-498, 1997. [61] Atkinson, A., Emotion-Specific Clues to the Neural Substrate of Empathy [Online], Behavioral and Brain Sciences Vol.1 N25 pp.22-23, 2007. Available: http://journals.cambridge.org/action/displayAbstract? fromPage=online&aid=139145 [62] Ekman, P.; Rosenberg, E., What the face reveals, Ed. Oxford University Press, 1997. ISBN:0-19-510446-3 [63] Verma, R.; Davatzikos, C.; Loughead, J.; Indersmitten, T.; Hu, R.; Kohler, C.; Gur R. E.; Gur, R. C., Quantification of facial expressions using high-dimensional shape transformations [Online], Journal of Neuroscience Methods, pp.61-73 N141 Vol.1 2005. Available: http://www.biomedexperts.com/Profile.bme/291934/Christos_Davatzikos [64] Ekman, P.; Friesen, W., Facial Action Coding System, Ed. Consulting Psychologists Press, 1978. [65] Curio, C.; Breidt, M; Kleiner, M.; Vuong, Q.; Giese, M.; Blthoff, H., Semantic 3D Motion Retargeting for Facial Animation [Online], Procs. 3th Symposium on Applied perception in graphics and visualization, pp.77-84 2006. ISBN:1-59593-429-4 Available: http://portal.acm.org/citation.cfm?id=1140491.1140508 [66] Wojdel, A.; Rothkrantz, L., Intelligent system for semiautomatic facial animation, , 2006. 1994.

[67] Kring, A.; Sloan, D., The Facial Expression Coding System (FACES): A users guide, Tech. Rep. [Online], University of California; Temple University, 2003. Available: http://socrates.berkeley.edu/~akring/FACES %20manual.pdf [68] Pantic, M.; Rothkrantz, Leon., Automatic Analysis of Facial Expressions: The State of the Art [Online], Trans. on patterns analysis and machine inteligence Vol.22 N12 pp.1424-1445, 2000. Available: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.25.5398 [69] Wang, P.; Barrett, F.; Martin, E.; Milonova, M.; Gurd, R.E.; Gurb, R.C.; Kohler C.; Verma R., Automated videobased facial expression analysis of neuropsychiatric disorders [Online], Journal of Neuroscience Methods Vol.168 N168 pp.224238, 2008. Available: http://linkinghub.elsevier.com/retrieve/pii/S016502700700475X

66

[70] Wiskott, L.; Fellous J.; Krger, N.; von der Malsburg, C., Face Recognition by Elastic Bunch Graph Matching [Online], Intelligent Biometric Techniques in Fingerprint and Face Recognition Vol.19 N7 pp.775-779, 1997. Available: http://dx.doi.org/10.1109/34.598235 [71] Lyons, M.; Budynek, J.; Akamatsu, S., Automatic classification of single facial images [Online], IEEE Trans. on pattern analysis and machine intelligence Vol.21 N12 pp.1357-1362, 1999. Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=817413 [72] Littlewort, G.; Stewart Bartlett, M.; Fasel, I.; Susskind, J; Movellan, J., Dynamics of facial expression extracted automatically from video [Online], Procs. Computer Vision and Pattern Recognition Workshop, pp.80 2005. Availabe: http://linkinghub.elsevier.com/retrieve/pii/S0262885605001654 [73] Fasel B.; Luettin J., Recognition of asymmetric facial action unit activities and intensities [Online], Procs. 15th International Conference on Pattern Recognition, pp.1100-1103 Vol.1 2000. Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=905664 [74] Tian, T.; Kanade, T.; Cohn, J., Recognizing Action Units for Facial Expression Analysis [Online], Procs. IEEE Trans. on Pattern Analysis and Machine Intelligence, pp.97-115 N2 Vol.23 2001. Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=908962 [75] Cohen, I.; Sebe, N.; Garg, A.; Chen, L.; Huang, T., Facial expression recognition from video sequences: temporal and static modeling [Online], Procs. Computer Vision and Image Understanding, pp.160-187 N1 Vol.91 2003. Available: http://linkinghub.elsevier.com/retrieve/pii/S107731420300081X [76] Wang, Y.; Ai, H.; Wu, B.; Huang, C., Real Time Facial Expression Recognition with Adaboost [Online], Procs. 17th International Pattern Recognition, pp.926-929 Vol.3 2004. ISBN:0-7695-2128-2 Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=1334680 [77] Whitehill, J.; Omlin, C., Haar Features for FACS AU Recognition [Online], 7th International Conference on Automatic Face and Gesture Recognition pp.101, University of the Western Cape; University of the South Pacific 2006. Available: http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=1613004 [78] Cohen, I.; Sebe, N.; Cozman, F.; Cirelo, M.; Huang, T., Learning Bayesian Network Classifiers for Facial Expression Recognition using both Labeled and Unlabeled Data [Online], Procs. Computer Vision and Pattern Recognition, pp.I595-I601 Vol.1 2003. ISBN:0-7695-1900-8 Available: http://ieeexplore.ieee.org/stamp/stamp.jsp? tp=&isnumber=&arnumber=1211408 [79] Ohta, H.; Saji, H.; Nakatani, H., Recognition of Facial Expressions Using Muscle-Based Feature Models [Online], Procs. 14th International Conference on Pattern Recognition, pp.1379-1381 1998. ISBN:0-8186-8512-3 Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=711959 [80] Essa, I.; Pentland, A., Facial Expression Recognition using a Dynamic Model and Motion Energy [Online], Procs. 5th Fifth International Conference on Computer Vision, pp.360-367 1995. ISBN:0-8186-7042-8 Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=466916 [81] Essa, I.; Pentland, A., Coding, Analysis, Interpretation, and Recognition of Facial Expressions [Online], Procs. 6th International Conference on Mutlmodal Interfaces, N7 Vol.19 1997. Available: http://graphics.usc.edu/cgit/pdf/papers/ICMI2004-emotionrecog_upload.pdf [82] Kimura, S.; Yachida, S., Facial expression recognition and its degree estimation [Online], Procs. Computer Vision and Pattern Recognition, pp.295-300 1997. ISBN:0-8186-7822-4 Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=609338 [83] Wen, Z.; Huang, T., Capturing subtle facial motions in 3D face tracking [Online], Procs. 9th IEEE International Conference on Computer Vision, pp.1343-1350 Vol.2 2003. ISBN:0-7695-1950-4 Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=1238646 [84] Saatci, Y.; Town, C., Cascaded Classification of Gender and Facial Expression using Active Appearance Models [Online], Procs. 7th International Conference on Automatic Face and Gesture Recognition, pp.393-398 2006. ISBN:0-7695-2503-2 Available: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&isnumber=&arnumber=1613052 [85] Viola, P.; Jones, M., Robust Real-Time Face Detection [Online], Procs. 8th IEEE International Conference on

67

Computer Vision, pp.747 arnumber=937709

Vol.2 2003. ISBN:0-7695-1143-0 Available: http://ieeexplore.ieee.org/xpls/abs_all.jsp?

[86] Sugimoto, Y.; Yoshitomi, Y.; Tomita, S., A method for detecting transitions of emotional states using a thermal facial image based on a synthesis of facial expressions [Online], Robotics and Autonomous Systems, pp.147-160 N3 Vol.31 2000. Available: http://www.ingentaconnect.com/content/els/09218890/2000/00000031/00000003/art00104 [87] Rojas Bello, R., Estudio Independiente Tutelado: Identificacin de rostro e identificacin de emociones y variaciones naturales, Escuela Politcnica Superior Universidad Autnoma de Madrid, 2008.

68

ANEXOS
ANEXO I: AUs definidas en FACS

Tabla 8: Unidades de accin sencillas en FACS [64]

Tabla 9: Unidades de accin generales en FACS [64]

69