Analisi Espectral Local Visual Saliency

Deteccin de regiones de inters visual mediante Anlisis Espectral Local de la imagen.
Jos Antonio Aznar-Casanova Depto. de Psicologa Bsica Facultad de Psicologa Universidad de Barcelona
Dirigir la correspondencia a: Dr. J.A. Aznar Casanova Depto. de Psicologa Bsica Facultad de Psicologa Universidad de Barcelona Passeig de la Vall d'Hebron, 171. 08035-Barcelona (Spain) Tfno.: +34 93 3125145 Fax: +34 93 4021363 e-mail: jaznar2@ub.edu
Original publicado en: Cognitiva, 13, 1. La Laguna. Sta. Cruz de Tenerife (Spain).
Resumen La nocin de mapa, entendida como correspondencia biunvoca entre dos niveles de representacin en el SV, nos lleva a plantear la cuestin de cmo puede utilizar la visin estos mapas (que incluyen las representaciones distribuidas) para procesar la informacin de la imagen. Para ello, fijamos dos objetivos. Por un lado, analizar la retina cortical, un mapa ubicado en el crtex estriado, que sirve de soporte a una importante representacin conjunta espacio-espectral. Para generar esta representacin concebimos un modelo, simplificado, compuesto por cuatro lminas de frecuencia espacial y cuatro canales de orientacin, el cual produce dicha representacin mediante Anlisis espectral local. Por otro lado, proponemos otro modelo que permite la deteccin automtica de regiones de inters visual. Este se fundamenta en la hiptesis de que las respuestas a los filtros lineales locales aplicados a la imagen, y almacenadas en la retina cortical, sealan las regiones que ms destacan en la imagen acromtica, produciendo, as, un grupo perceptivo. Complementariamente, verificamos si aquellas regiones que 'perduran' en las diferentes escalas coinciden con las de mayor saliencia visual.
Palabras clave: Representaciones conjuntas, Funciones de Gabor, Anlisis espectral local 2D, Retina cortical, Regiones de inters visual.
Abstract We understand the term map as one-to-one correspondence between two representation levels in the Visual System (VS). This notion lead us to outline the question about how the VS can use such map (which include distributed representations) for the image processing. In order to achieve this goal we fix two objectives. On the one, to analyse the cortical retinae, a map located in the striate cortex that contains an important joint space/spectral representation, we have elaborated a simplified model to obtain this joint representation, which is composed by layers of cells tuned to different spatial frequencies and for columns tuned to different orienttions. The joint representation is generated by applying Local Spectral Analysis to an image. On the other, we proposed a new model that allow us to detect, automatically, interesting regions in the image. It is based in the following hypothesis: the outputs of linear and local filters applied to the image, and stored in the cortical retinae, indicate the more highlight regions of achromatic images, producing a perceptual grouping. In addiction, we suggest that those regions, 'survival' through different scales, coincide with the most prominent regions in the image. Keywords: Joint space-spatial frequency representations, Gabor's functions; Local 2D spectral analysis, Cortical retinae, Interesting regions.
INTRODUCCION En el procesamiento visual, el cerebro humano, parece operar en un sistema tetradimensional (4D), en el que tres coordenadas (x, y, z) son espaciales y la otra (t) temporal. Estas cuatro coordenadas proporcionan tanto la localizacin de un evento en el espacio (x0, y0, z0) como en el tiempo (instante t0). La estructura anatmica e histolgica cerebral parece revelar que en la construccin y arquitectura de este rgano se le ha concedido una importancia capital a la ubicacin espacial, por lo que la neurofisiologa cerebral comienza a parecerse a una cartografa, que requiere de una topografa que describa y represente detalladamente los diversos mapas cerebrales. Una prueba de ello sera el homnculo motrico que Penfield y Rasmusen propusieron en los aos cuarenta, como resultados de la estimulacin elctrica de la superficie de la corteza cerebral en sujetos humanos. Recurdese que en esta representacin cortical de la motricidad, los dedos, pies (o manos) y piernas (o brazos), as como la disposicin de los rasgos del rostro, etc, se hallan en igual continuidad espacial que lo representado. Tambin es preciso observar que, en el esquema del homnculo motrico, se representa el tamao de una parte del cuerpo de modo proporcional a la extensin de la corteza motora cerebral implicada en el procesamiento (control) de estas partes y que dicha representacin distorsiona el tamao real de tales partes, de modo que, por ejemplo, el dedo pulgar o la lengua ocupan mayor superficie cerebral que la pierna o el brazo. Otra prueba, bien conocida, de la importancia del orden espacial en el cerebro la constituye el mapa tonotpico ubicado en la corteza auditiva primaria, cuyas neuronas se distribuyen segn la frecuencia temporal o tonalidad preferente, anlogamente a la distribucin de las clulas ciliares de la membrana basilar de la cclea (sensores). En la modalidad visual, Blakemore (1990) sostiene la tesis de que al cerebro le es til mantener ciertas ordenaciones espaciales. Este autor seala que el cerebro utiliza dos tipos de 'mapeo' (mapping), los denominados mapas isomrficos, que se basan en el criterio de mantener en el crtex la misma disposicin espacial de las clulas fotorreceptoras retinianas y los mapas anisomrficos, que se basan en el criterio de preservar la misma disposicin de los rasgos (por ejem., la orientacin) que existe en el mundo exterior. Es importante destacar la idea de que, en este ltimo tipo de mapa se establece una relacin entre la distribucin ordenada de un rea cerebral (localizacionismo) y ciertas caractersticas relevantes del estmulo, por ejemplo, la orientacin. Mientras que, en los mapas isomrficos se relaciona la distribucin de los sensores (o sus fibras nerviosas asociadas) y un rea cortical. Ahora bien, aqu, el problema principal radica en descubrir cmo el cerebro utiliza esta cartografa. Barlow (1981, 1985) formul los principios en los que parece fundamentarse tal cartografa. Para l los mapas son tiles porque permiten establecer nuevas asociaciones que puedan revelar propiedades interesantes de la imagen. Por ejemplo, agrupar todos los objetos
rojos de la imagen, o todos los rostros humanos, quizs para, despus, focalizar la atencin sobre ellos. Blakemore (1990) ha destacado ciertas ventajas que el cerebro obtiene con el uso de estos mapas. Primero, mantener la misma relacin topogrfica facilita operaciones de clculo local sobre regiones vecinas que interaccionan sumando o restando los impulsos excitatorios o inhibitorios, respectivamente. Segundo, conservar la topografa en dos localizaciones distintas simplifica el problema de mantener el paralelismo entre la distribucin sensorial y otras representaciones que explicitan nueva informacin. Tercero, y finalmente, la topografa supone una economa gentica, en cuanto que reduce el nmero de cromosomas implicados en especificar las instrucciones necesarias para construir el cerebro. Tambin, Zeki (1981) se pregunt por qu la evolucin del cerebro ha recurrido a juntar en una misma rea clulas con propiedades comunes y bas su explicacin en la necesidad de la especializacin cerebral para procesar atributos diferentes de la escena visual (forma, color, movimiento, etc.). En otros trminos, algoritmos diferentes requieren mecanismos diferentes, ubicados en reas diferentes. Probablemente, Zeki (1995) es uno de los investigadores que con mayor conviccin defiende la presencia de representaciones topogrficas (mapas) de las
funciones visuales en el cerebro. Por su pertinencia, en relacin con nuestro objetivo, destacamos el reconocimiento de la existencia de la llamada retina cortical (Henschen, 1910), en cuanto afirma: "tenemos un mapa de la superficie retiniana en la corteza de V1, es decir, una correspondencia entre ambas" (pg. 183). Y: "En la corteza estriada el mapa de la retina se constituye de la siguiente manera ..." (pg. 49). En este trabajo, en primer lugar, nos proponemos modelar uno de los mapas cerebrales anisomrficos ms relevantes, la llamada retina cortical, haciendo uso de una representacin conjunta espacio-frecuencia espacial. Es decir, una representacin de la imagen en el rea visual primaria, que contiene informacin sobre la localizacin espacial de los centros de los campos receptores (CR) retinianos, en cuyo mosaico se proyecta la imagen observada y en la que, a cada uno de esos CR (pequeos trozos de la imagen) se les asocia (en una cierta escala) el espectro de amplitud local (o rango de frecuencias espaciales dispuestas en ciertas orientaciones). En segundo lugar, postulamos un modelo de bajo nivel, que detecta automticamente (sin supervisin humana) regiones interesantes de la imagen. Este modelo se fundamenta en la hiptesis de que las regiones de mayor saliencia visual (las ms llamativas) son aquellas regiones de la imagen centradas en los puntos donde las respuestas a los filtros es mxima. Es decir, el modelo detecta aquellas porciones de la imagen a las que una hipottica poblacin de clulas simples, componentes de la retina cortical, responderan con una mayor tasa de descarga neuronal. El trabajo se estructura en cuatro secciones, en la primera se revisan las principales evidencias fisiolgicas y psicofsicas que dan soporte emprico a ese mapa cerebral visual conocido como
retina cortical. En la segunda seccin, mostramos un posible modelo computacional de retina cortical, describindose el algoritmo que se aplica en este modelo para producir una representacin conjunta espacio-espectral, es decir, una posible implementacin del Anlisis espectral local. En la tercera seccin, proponemos un modelo que permite detectar regiones de inters visual, seleccionando aquellas reas de la imagen de mayor saliencia en cuanto a contraste fsico de la luminancia y lo aplicamos a dos diferentes tipos de imgenes. Finalmente, como conclusin, valoramos los resultados experimentales obtenidos en las simulaciones computacionales.
1. CARTOGRAFIA CEREBRAL Y MAPAS RETINOTOPICOS Se dice que un mapa es topogrfico cuando a regiones adyacentes del objeto real le corresponden las mismas regiones adyacentes en la representacin. Hoy, sabemos que tanto el NGL izquierdo como el derecho est compuesto de seis capas de clulas apiladas de modo curvado o doblado, como se muestra en la Figura 1-izquierda. As como que las clulas de las capas 1 y 2 son ms grandes (sistema magnocelular) que las capas 3, 4, 5 y 6 (sistema parvocelular). Tambin es conocido que, al salir del Quiasma ptico, las fibras contralterales del Tracto ptico sinaptan solamente con las clulas de las capas 1, 4 y 6; mientras que las fibras ipsilaterales contactan slo son las capas 2, 3 y 5. De este modo, los dos NGL contienen informacin de ambos ojos.
FIGURA 1.- Izquierda: esquema de la disposicin ordenada de las capas del NGL ubicado en el hemisferio cerebral derecho.
Derecha: esquema que relaciona las conexiones entre las fibras ipsilaterales y contralaterales del NGL derecho, mostrando el
mapping de la retina al NGL. Tambin ilustra la disposicin de las capas, sugiriendo como puede representarse la informacin en este ncleo talmico, de modo que contenga un anlisis de la imagen multiescala. Adaptado de Sekuler (1990), figuras 4.4 y 4.5.
Puede afirmarse que cada una de las capas de clulas del NGL contiene una representacin espacial ordenada o mapa de la retina (Sekuler y Blake, 1990). Y puesto que cada mapa del
NGL mantiene la topografa de la retina, podemos denominarlos con propiedad como mapas retinotpicos. La Figura 1-derecha es un esquema que muestra la disposicin de estos seis mapas. En ella se ilustra la idea de que las regiones homlogas de cada uno de estos mapas estn alineadas entre s, de modo que, por ejemplo, las regiones foveales (A y A') estn situadas en la misma columna. Daniel y Whitteridge (1961) mostraron un mapping (isomrfico) entre el campo visual y la corteza visual primaria del mono rhesus. En la Figura 2, puede observarse una vista lateral posterior del crtex de este primate, sobre cuya corteza estriada se ha sobreimpresionado la topografa del campo visual, evidencindose la correspondencia existente entre diversas excentricidades retinianas (entre 0 y 8) y las regiones corticales asociadas organizadas en columnas y filas.
FIGURA
2.-
Esquema
del
hemisferio cerebral izquierdo de un mono Rhesus. La lnea con la etiqueta "horizontal" seala la localizacin cerebral en la que se proyecta el meridiano horizonte del lado derecho del capo visual. La lnea con la etiqueta "vertical" seala meridiano la proyeccin vertical del del capo
visual. Los nmeros expresan, en grados sexagesimales, las reas cerebrales cubiertas por las
distintas excentricidades retiniana (campo visual). Tomado de Barlow (1990), figura 1.4.
Advirtase que este mapping, al igual que ocurre con la densidad de conos en las diferentes regiones de la retina, a determinadas reas del espacio retinotpico les corresponden reas que disminuyen en extensin conforme crece la excentricidad. Este sobredimensionamiento de la representacin de ciertas partes del cuerpo sigue la regla de que a mayor nmero de sensores en una parte del cuerpo le corresponde una mayor superficie cerebral. Tambin se constata la llamada magnificacin de la representacin foveal (Hubel y Wiesel, 1974). Segn Drasdo (1977), alrededor del 80% de las clulas del crtex visual se dedican a representar excentricidades comprendidas entre 0 y 10 del campo visual. No obstante, a pesar de esta distorsin espacial, conocida la localizacin retiniana de un estmulo puntual es posible predecir con exactitud topolgica la clula cortical del mono rhesus que resultar excitada.
Hubel y Wiesel (1962) descubrieron tres tipos de clulas en el crtex visual del gato, a las que denominaron clulas simples, complejas e hipercomplejas, y que estaban implicadas en el procesamiento espacial o percepcin de la forma. Tambin desvelaron la arquitectura fisiolgica de la corteza estriada del macaco, cuyas clulas mostraban una disposicin en columnas de orientacin de 0,5 mm de dimetro. En otras palabras, las clulas dispuestas en una misma columna mostraban la misma preferencia en orientacin, por lo que respondan de modo mximo ante una barra esttica iluminada con una especfica inclinacin (Hubel y Wiesel; 1968, 1977). La Figura 3 consiste en una adaptacin, que hemos elaborado, a partir de otra figura original de Maffei (1978), concretamente la figura 13. En ella hemos tratado de esquematizar dos hipercolumnas que recubren una superficie aproximada de 2 mm2 de crtex visual. El bloque est constituido por una serie de prismas de base cuadrangular que representan las columnas de orientacin. De acuerdo con ello, hemos dibujado sobre la cara frontal trazos con distintas inclinaciones, sealando la orientacin de sintona de la columna dispuesta debajo de ella. En la cara inferior del bloque se han dibujado estmulos de enrejado de diferentes frecuencias espaciales (altas, medias y bajas). Junto a esta organizacin en columnas de orientacin coexiste otro sistema de organizacin columnar, las denominadas columnas de dominancia ocular, y otro sistema de organizacin laminar, a las que Maffei y Fiorentini (1977) se refienen como lminas de frecuencia espacial, dispuestas ortogonalmente a las columnas de orientacin y dominancia ocular. Una 'columna de dominancia ocular' est constituida por varios campos receptores, asociados de modo preferente a un solo ojo, teniendo en comn un cierto solapamiento entre estas regiones retinianas. Diferentes columnas de dominancia ocular tienen sus campos receptores disjuntos (Hubel y Wiesel, 1977). Una 'lmina de frecuencia espacial' est compuesta por clulas simples, cuyas frecuencias espaciales de sintona son, aproximadamente, las mismas. La Figura 3 ilustra una posible disposicin espacial del sistema de columnas de orientacin respecto al sistema de lminas de frecuencia espacial, similar al concebido por Maffei (1978), aunque hasta el momento actual se desconoce la verdadera posicin relativa entre estos tres sistemas.
FIGURA
3.-
Esquema
simplificado de un mdulo, que cubrira unos 2 mm2 del cortex visual primario. Cada columna de orientacin responde,
preferentemente, a una orientacin representada mediante una lnea inclinada en la cara frontal del bloque. Cada capa laminar est sintonizada, ptimamente, a la frecuencia espacial representada en la base inferior del bloque. Adaptado de Maffei (1978), figura 13.
Parece ser que a cada campo receptor del espacio retiniano le corresponde un rea de aproximadamente 2 mm2 en el crtex visual (Hubel, 1982), a la que se denomina campo asociado, el cual cubre un rango de orientaciones de 180 y una columna de dominancia ocular. Esta unidad funcional es conocida como hipercolumna (Hubel, 1982). Dos hipercolumnas de dominancia ocular, que incluyen varias columnas de orientacin forman un mdulo visual. Nuestro modelo de retina cortical trata de mimetizar, de modo altamente simplificado, una hipercolumna de dominancia ocular, es decir, un conjunto de cuatro columnas de orientacin, que responden de modo ptimo cuando los rasgos estn orientados a 0, 45, 90 y 135, y tambin incluye cuatro lminas sintonizadas a las frecuencias espaciales 1/16, 1/8, 1/4 y 1/2 ciclos/imagen.
2. UN MODELO COMPUTACIONAL DE RETINA CORTICAL Un mapa isomrfico de la retina representado en el crtex visual, que preserve la topografa de los fotorreceptores, enfatiza la magnificacin cortical, una reconstruccin de la seal 2D que posibilita la hiperagudeza (Fhle y Poggio, 1981). Sin embargo, el procesamiento espacial de la imagen tambin requiere de mapas anisomrficos, probablemente y como seala Barlow (1990) anidados dentro de los mapas isomrficos. As lo sugiere la arquitectura fisiolgica del crtex visual desvelada por los neurofisilogos y los mecanismos psicofsicos mostrados por los psiclogos. Nuestro modelo pretende emular uno de estos mapas anisomrficos que establecen una triple ordenacin, tanto en funcin de la frecuencia espacial (tamao o escala de los rasgos)
como en funcin de la orientacin de los mismos y tambin de la localizacin espacial de esos rasgos. Es decir un modelo simplificado que genere una representacin conjunta espacioespectral, multiescala y multiorientada. La representacin conjunta vendr determinada por cuatro parametros libres, que especifican, bien un canal psicofsico, o bien una clula simple. Esto es, la posicin espacial del CR con coordenadas (x0,y0) y la localizacin en el plano espectral o plano de Fourier con coordenadas polares (f0, ). Numerosas investigaciones tanto neurofisiolgicas como psicofsicas (vase Sierra-Vzquez, 1992, para una revisin ms exhaustiva) dan soporte emprico a una peculiar concepcin del procesamiento de bajo nivel, que debe aplicar el SV, propuesta por Robson (1975). Segn Robson, el SV opera aplicando sobre la imagen algo as como un anlisis de Fourier discreto, fragmentado, por regiones, siendo cada regin el rea de la retina cubierta por un campo receptor. De acuerdo con esta concepcin, un banco de filtros paso-banda, de anchura ms bien estrecha, susceptibles de modelizarse mediante funciones de Gabor 2D, analizara cada trozo de la retina (CR). La Figura 4 muestra un conjunto de funciones de Gabor sintonizadas a una frecuencia espacial de 1/16 ciclo/imagen y con orientaciones preferentes de 0, 45, 90 y 135. Cada filtro de Gabor 2D vendra caracterizado por dos parmetros: la frecuencia espacial de sintona y la orientacin preferente y tambin debera estar localizado, espacialmente, el centro de la gaussiana envolvente (coordenadas del centro del CR) [un detallado estudio de las representaciones conjuntas espacio-espectral puede encontrarse en Jacobson y Wechsler, (1988) y Sierra-Vzquez, (2000)].
FIGURA 4.- Representacin grfica, en niveles de gris, de un conjunto de funciones de Gabor 2D, sintonizadas a bajas frecuencias espaciales (f0= 1/16 ciclos/img) y, cada una diferente en orientacin preferente (de izquierda a derecha: 0, 45, 90 y 135).
En este modelo, las seales elementales de Gabor constituyen las funciones de pesos del punto del canal o sensor y su espectro de amplitud (coeficientes de la Transformada de Gabor TG) indica la importancia con que dicha funcin (con una cierta f0 y cierta ) contribuye a la sntesis de la imagen (Daugman y Kronauer, 1985). Recurdese que, como seal Daugman (1985) para el caso de seales 2D, estas funciones minimizan el producto de la extensin espacial por la extensin espectral (principio de incertidumbre de la Transformada de Fourier [TF, en adelante] ).
En el modelo que aqu mostramos, resultante de integrar las evidencias psicofsicas y neurofisiolgicas, las representaciones se generan haciendo uso del anlisis espectral local de una imagen (seal bidimensional), el cual, para cada posicin espacial con coordenadas (x0,y0) [que indican el centro de un CR] representamos los coeficientes de la Transformada de Gabor, en funcin de la localizacin en el plano de Fourier (plano espectral) con coordenadas polares (f0, ). Por tanto, obtenemos una representacin conjunta espacio-espectral, en la que, para cada trozo de la imagen (dominio espacial) se describen sus componentes espectrales (dominio frecuencial). En la implementacin sto sera equivalente a aplicar un anlisis de Fourier local, es decir, que no opera sobre toda la imagen (anlisis global), sino solo sobre un trozo de la imagen, resultante de multiplicar toda la imagen por una funcin gaussiana 2D de una cierta orientacin, centrada en cada pixel de la imagen sucesivamente. A continuacin, describimos un algoritmo para aplicar el Anlisis Espectral Local (AEL) a una imagen en una cierta escala (determinada por una frecuencia espacial de sintona) y en una serie de orientaciones. Por razones de economa de tiempo de computo y espacio ocupado por la representacin generada, as como para mayor simplicidad, nosotros aplicaremos el AEL a una imagen de 1616 pixels. Tambin por las mismas razones, asumiremos que el SV del modelo esta constituido por cuatro canales de frecuencia espacial (cuyas frecuencias de sintona son: 1/16, 1/8, 1/4 y 1/2 ciclos/imagen) y cuatro canales de orientacin (cuyas orientaciones preferidas son: 0, 45, 90 y 135). Los pasos del algoritmo que aplica el anlisis espectral local son: 1. Iniciamos un bucle que establece cuatro escalas determinadas por otras tantas frecuencias espaciales de sintona, antes especificadas. Para cada una de estas cuatro escalas se realizan los pasos que siguen. 2. Generamos cuatro gaussianas 2D, una para cada diferente orientacin: 0, 45, 90 y 135. Las gaussianas vienen definidas, formalmente, por:
g (0,0) = e a
(( x cos 0 + ysin 0 ) 2 + T 2 ( xsin 0 + y cos 0 ) 2 )
[1]
Donde a es un coeficiente que indica la anchura de banda en frecuencia espacial o rango de frecuencias en torno a la frecuencia de sintona f0, T (razn de aspecto) es un factor que determina la forma de la envoltura gaussiana (en el paso 4 se especifican los valores de a y T). El parmetro o es la orientacin de la gaussiana 2D. 3. En la escala seleccionada (frecuencia espacial de sintona), generamos cuatro filtros de Gabor con fase coseno (= 90 even filter). Cada uno de estos cuatro filtros difiere en la orientacin preferente: 0, 45, 90 y 135. De acuerdo con la definicin formal propuesta
10
por Navarro y Tabernero (1991) y que hemos utilizado en otros trabajos (Aznar, submited), generamos las funciones de Gabor 2D mediante la expresin:
g( x, y) = e a
(( x cos 0 + ysin0 )2 + T2 ( xsin0 + y cos 0 )2 ) e i 2f0 ( x cos 0 + ysin0 ) e i [2]
Concretamente, los valores utilizados para determinar la anchura de banda en frecuencia espacial y la anchura de banda en orientacin, son los sealados por De Valois y cols. (De Valois et al., 1982a y De Valois et al.,1982b) para el crtex visual del macaco y son: T= 0.65 y a= 0.988
4. Creamos un doble bucle (para cada fila y para cada columna) que recorre la imagen (de 1616 pixels). Y, conforme se ejecuta este doble bucle, desplazamos la gaussiana 2D a lo largo y ancho de tal imagen, es decir, centrndola en cada uno de los 256 pixels (16x16). 5. Multiplicamos la imagen de trabajo por la gaussiana 2D, previamente desplazado su centro, con lo que producimos una especie de TF ventaneada o recorte de la imagen procesada. 6. Convolucionamos la imagen con el conjugado del filtro de Gabor 2D. Para ello calculamos ls TF de la imagen y del filtro de Gabor, hallamos el conjugado complejo de este ltimo y multiplicamos las dos TFs, con lo que obtenemos una TF filtrada de la imagen. Los coeficientes de la Transformada de Gabor 2D sintonizada a (fo,o) y aplicada sobre la imagen f(x,y) resultan de la ecuacin:
+ +
Rx
, 0
y 0, f 0, 0
f ( x, y) g x
*
y 0, f 0, 0
( x , y ) dx
dy
[3]
Donde g* indica el conjugado complejo del filtro de Gabor 2D (gx,y,f,)
7. Convertimos la TF de coordenadas cartesianas a polares, con el fin de seleccionar el espectro de amplitud. 8. Sumamos los cuatro espectros de amplitud correspondientes a las cuatro orientaciones. Por lo que la representacin aqu generada contendr todas las orientaciones establecidas en el modelo. Esta suma de canales de orientacin simplemente la realizamos para evitar una proliferacin mayor de imgenes (4 canales de frecuencia x 4 canales de orientacin= 16 representaciones). Nuestro objetivo, aqu, consiste en que el modelo muestre la representacin conjunta espacio-espectral y no el anlisis multiescala y multiorientacin, el cual podemos encontrar en nmeros trabajos (en nuestro entorno: Navarro y Tabernero, 1991; Sierra-Vazquez, 1992; Aznar-Casanova, 2000). 9. Aplicamos un muestreo simple al espectro de amplitud obtenido, para reducirlo de 64x64 a 32x32 pixels. Recurdese que este espectro de amplitud corresponde a un trozo de la
11
imagen centrada en un pixel y que, en definitiva, al final de ejecutarse el algoritmo completo dispondremos de 1616= 256 espectros de amplitud (un espectro por cada localizacin espacial o pixel de la imagen procesada). 10. Colocamos el espectro de amplitud submuestreado en su correspondiente localizacin espacial de la imagen original 11. Guardamos en memoria la representacin conjunta, a la que se ha aadido un nuevo espectro de amplitud. Es decir, la representacin se actualiza en cada paso de la ejecucin. 12. Cerramos el doble bucle "para cada fila", "para cada columna" de la imagen de 1616 pixels. 13. Cerramos el bucle "para cada escala". 14. Salvamos la representacin conjunta espacio-espectral generada.
La representacin, as generada, consiste en una representacin conjunta espacio/espectral en la que para cada trozo de la imagen, centrado en cada pixel de sta, se describen las frecuencias espaciales componentes y la energa con que stas contribuyen a la formacin (sntesis) de la imagen. No obstante, nosotros no hemos representado dnde se ubican cada uno de esos componentes espectrales de la imagen, es decir, sus espectros de fase, los cuales tambin debe tener en cuenta el SVH.
2.1 OBTENCIN DE UNA REPRESENTACION CONJUNTA ESPACIO-ESPECTRAL Vamos a aplicar el algoritmo antes descrito a una pequea imagen de 1616 pixels, que contiene la forma de un asterisco, es decir, cuatro segmentos dispuestos perpendicularmente dos a dos. La Figura 5 contiene esta primera imagen de trabajo, a la izquierda con su tamao real y, a la derecha, magnificada por un factor 8, con el fin de que puedan observarse los detalles de grano fino especificados por las altas frecuencias espaciales y, posteriormente, compararla con otras representaciones generadas.
FIGURA 5.- Imagen de trabajo-1, a la izquierda se muestra el tamao real del asterisco sobre fondo negro. A la derecha la imagen real magnificada a 6464 pixels, las dimensiones de la original son: 16x16 pixels.
12
Debemos reparar en que, como consecuencia de la interseccin de los cuatro segmentos en el centro de la imagen, en esta localizacin central se configura un pequeo cuadrado del que brotan ocho brazos o apndices, cuyas orientaciones son: 0 ( 180 360), 45 ( 225), 90 ( 270) y 135 ( 315). Al aplicar el AEL a esta imagen, en escala 4, que contiene las ms altas frecuencias espaciales en torno a 1/2 c/img, y sin separar (por pragmatismo) las diversas orientaciones de los rasgos constitutivos de la imagen procesada, se obtiene la representacin conjunta de la Figura 6. Esta imagen de 512512 pixels muestra un "efecto mosaico", en cuanto que parece estar constituida por 1616= 256 'teselas', de dimensiones 3232 pixels. Cada una de tales teselas corresponde al espectro de amplitud local (o coeficientes de la Transformada de Gabor o TG) de cada trozo de la imagen procesada, centrado en cada pixel sucesivamente. Por esta razn, es fcil comprender el elevado coste temporal de procesamiento para una arquitectura computacional 'Von Newmann' , es decir, una mquina electrnica (ordenador) que opera secuencialmente. Sin embargo, para un procesador analgico y que opera masivamente en paralelo, como el cerebro, este cmputo puede realizarse en microsegundos (1 seg.= 10-6 seg.).
FIGURA 6.- Resultado del Anlisis espectral local de la imagen del asterisco en escala= 4, frecuencia Nyquist de sintona= 1/2 c/img. Cada subimagen es el espectro de amplitud (submuestreado) correspondiente a una ventana gaussiana 2D centrada en uno de los 16x16 pixels de la imagen del asterisco.
13
En esta representacin, las teselas contienen los coeficientes de la TG en el dominio frecuencial y, por tanto, informan de las frecuencias espaciales y orientaciones presentes en el trozo de la imagen localizado espacialmente en la posicin en que se ubica la tesela considerada. As, la porcin central de la Figura 6, formada por 55 teselas, nos revela la presencia (en el centro de la imagen original) de una superficie cuadrada conteniendo el centro del asterisco o lugar de confluencia de los cuatro ejes radiales. Las teselas ms perifricas de la Figura 6 nos informan de la presencia de: a) Una lnea inclinada 45 con respecto a la horizontal en el cuadrante superior derecho. b) Una lnea inclinada 90 en el cuadrante superior central. c) Una lnea inclinada 135 en el cuadrante superior izquierdo. d) Una lnea inclinada 180 en el cuadrante central izquierdo. e) Una lnea inclinada 225 en el cuadrante inferior izquierdo f) Una lnea inclinada 270 en el cuadrante inferior central. g) Una lnea inclinada 315 en el cuadrante inferior derecho. h) Una lnea inclinada 0 360 en el cuadrante central derecho.
Si aplicamos el AEL a la imagen del asterisco en escala 3, la cual contiene un estrecho rango de frecuencias espaciales centrado en fo=1/4 c/img, en todas las orientaciones posibles, entonces obtendremos una representacin conjunta como la que se muestra en la Figura 7.
14
FIGURA 7.- Resultado del Anlisis espectral local de la imagen del asterisco en escala= 3, frecuencia Nyquist de sintona= 1/4 c/img. Cada subimagen es el espectro de amplitud (submuestreado) correspondiente a una ventana gaussiana 2D centrada en uno de los 16x16 pixels de la imagen del asterisco.
En esta escala, la representacin nos revela la existencia de un pequeo cuadro central (superficie rellena), el cual es atravesado por cuatro ejes o lneas finas (de alta frecuencia espacial) dispuestas en las orientaciones 0, 45, 90 y 135. Al aplicar el AEL en escala 2 (fo=1/8 c/img) y 1 (fo=1/16 c/img), las cuales contienen las bajas frecuencias espaciales, las dos representaciones conjuntas (espacio/espectral) generadas nos informan de los componentes espectrales (fo,o) o, alternativamente (u, v) en cada posicin del espacio. Es decir, de la presencia del asterisco (interseccin de cuatro ejes) en el centro de la imagen procesada.
15
3. EL MAPA VISUAL CORTICAL SEALA REGIONES DE INTERES EN LA IMAGEN?
Las regiones de las imgenes que procesamos para extraer informacin no tienen todas la misma relevancia informativa. Existen ciertas regiones con mayor 'saliencia cognitiva', ms prominentes o llamativas, que tienen un especial atractivo y captan poderosamente la atencin visual del observador. Hasta la fecha, la deteccin de estas regiones interesantes se ha centrado en aplicar el registro de los movimientos oculares para, tras el posterior anlisis de estos datos, tratar de explicar qu factores determinan el que una regin sea de alto inters para la mayora de los sujetos. Probablemente, la escasez de otros abordajes experimentales se ha debido a que no resulta fcil encontrar un procedimiento que permita predecir, ante una cierta imagen, qu regin o regiones recibirn mayor atencin visual, definida sta como el tiempo de fijacin de la mirada sobre una cierta rea. Los gestaltistas (Rubin, 1921) estudiaron este problema con un enfoque filosfico (descripcin fenomenolgica) al sealar que, en las primeras etapas de la organizacin perceptual, se perfilaba una regin ms estructurada y bien delimitada (la figura) sobre otra regin indiferenciada y difusa (el fondo). Ms recientemente, varios autores (Neisser, 1967; Marr, 1976; Ullman, 1995) postularon la existencia de dos etapas secuenciales para el procesamiento de la informacin visual. En la primera etapa (estadio preatencional), se procesara toda la informacin disponible, pero solo parcialmente. En la segunda etapa, (estadio atencional), se procesara parte de la informacin, pero de modo completo. De acuerdo con Kahneman (1973), se asumi que, en el primer estadio, se segregaban figuras sobre un fondo. Y, hoy, la mayora de los investigadores de la visin admiten que este estadio, tambin conocido como segmentacin de formas, constituye una de las principales etapas del reconocimiento de formas. Puesto que, los objetos a quienes corresponden tales formas pueden variar en tamao y extensin, aqu, se plantean al menos dos problemas que urge resolver para comprender la visin, explicarla y emularla computacionalmente. Primero, cul es la escala (factor relacionado con el grado de detalle mximo que puede representarse) apropiada para describir una forma especfica. Segundo, cmo integra el Sistema Visual Humano (SVH) la informacin correspondiente a la multiplicidad de representaciones que deben generarse, para abarcar todos los detalles de los objetos. Sealaba Witkin (1983) que, en el caso de seales unidimensionales, la dificultad del problema de las descripciones multiescala no solo se centra en eliminar el ruido presente en las escalas de grano fino, sino, principalmente, en separar los objetos contenidos en las diferentes escalas de una cierta imagen (los objetos varan en tamao y extensin). Este anlisis multiescala de la imagen se realiza filtrando la seal (por ej., convolucionando la seal con una mscara gaussiana) de modo que se eliminen o atenen ciertos detalles sucesivamente, lo que vendr determinado por el valor de la desviacin tpica () de la gaussiana. El resultado de aplicar estos
16
mltiples filtros se representa en unos ejes cartesianos, donde las abscisas indican la posicin (espacio) de cada elemento de la seal y las ordenadas muestran la (escala). De este modo, reduce el espacio-escala de la imagen a un rbol simple que describe la estructura cualitativa de la seal en todas las escalas establecidas (nmero de filtrados aplicados). En efecto, esta estrategia resuelve el problema de la integracin de informacin contenida en las mltiples escalas espaciales, apoyndose en una propiedad bsica: conforme aumenta, los picos (respuestas mximas de los filtros, bordes, altas frecuencias espaciales, o fine scale) de la seal suavizada irn desapareciendo, de modo que, al final, solo los detalles de grano grueso (bajas frecuencias espaciales o coarse scale) permanecen presentes. Evidentemenete, esta representacin de la imagen en el espacio-escala es una jerarqua ordenada piramidalmente de escalas coarse-to-fine (desde los detalles de grano grueso hasta los de grano fino), en la que se describe cmo las escalas coarse contienen o integran la informacin de las escalas fine. En esta representacin multiescala de la imagen ninguna de las escalas es intrnsecamente ms relevante que las otras, lo que introduce una ambigedad inherente e ineludible. Ms importante an, para nuestro objetivo aqu, es que Witkin (1983) constat empricamente una importante estabilidad de rasgos (frecuencias espaciales) a travs de los cambios de escala, observando una notable correspondencia entre la estabilidad de un fragmento de la seal, dentro de un intervalo de escalas, y su saliencia perceptiva. Los sistemas de visin artificial se enfrentan a grandes cantidades de informacin (imgenes). Estos deben localizar y analizar slo la informacin relevante para la tarea que ejecutan y despreciar o desatender la informacin no relevante. Por tanto, es preciso detectar automticamente las regiones de inters de una imagen y asignar un peso atencional a cada una de stas. El segundo objetivo, que nos proponemos en este trabajo, consiste en verificar la hiptesis, basada en la idea de Witkin (1983) (y verificada en seales 1D), de que las regiones que producen respuestas mximas ante los filtros (en nuestro caso) Gabor-2D (en el caso de Witkin, funciones Gaussianas 1D) aplicados a la imagen, y que se mantienen estables a lo largo de mltiples escalas, son las regiones de mayor relevancia informativa y, tal vez las que reciben mayor atencin visual por parte de los sujetos humanos. Para ello, hemos desarrollado otro algoritmo que nos permita generar, en cada escala, mapas de regiones, detectadas a partir del valor de las respuestas a los filtros aplicados a imgenes digitalizadas. Una vez localizadas las principales regiones interesantes, en cada escala, aquellas que prevalecen en todas las escalas constituirn las regiones de inters visual.
3.1. RESULTADOS EXPERIMENTALES En este experimento de simulacin computacional nos planteamos dos objetivos. Primero, verificaremos la hiptesis de que, en cada escala, las regiones de inters visual de la imagen
17
coinciden con las localizaciones de las respuestas de mxima energa al banco de filtros de Gabor aplicado en el AEL. Y, segundo, estudiar la consistencia de estas regiones a travs de las cuatro representaciones conjuntas (una por cada escala) obtenidas mediante el anterior anlisis (AEL) y que pretenden emular la representacin que se forma en el crtex visual primario (retina cortical).
FIGURA 8.- Imagen de trabajo-2. Imagen acromtica de los "fusilamientos del 2 de Mayo", de Goya.
Como imgenes de trabajo a procesar en estas simulaciones utilizaremos dos diferentes tipos de imgenes. Una, la versin acromtica del conocido cuadro de Goya "los fusilamientos del 2 de Mayo", imagen equivalente a una foto realista y que podramos calificar como de imgen natural (vase Figura 8). Esta imagen ha sido ampliamente interpretada por los crticos del arte del lienzo, quienes destacan la figura del personaje central con los brazos en cruz (sin entrar en interpretaciones alegricas), figura a la que atribuyen un especial magnetismo para captar la mirada del observador. Tambin el camino y el personaje que yace sobre l es otra regin relevante y, finalmente, la espalda de los 'fusileros' franceses. El registro de los movimientos oculares, aplicado a sujetos ingenuos, probablemente, revelara este mismo patrn de fijaciones de la mirada (tracking eye), coincidiendo con lo que los crticos de obras pictricas enfatizan. La imagen creada por Goya fue submuestreada a 6464 pixels, a fin de que el coste computacional del clculo fuera razonable y la extensin espacial de la representacin conjunta obtenida fuese adecuada al formato de una revista. El resultado de aplicar el AEL a esta imagen en escala 4 (altas frecuencias centradas en fo=1/2 c/img) puede observarse en la Figura 9.
18
FIGURA 9.- Resultado del Anlisis espectral local de la imagen de Goya en escala= 4, frecuencia espacial de sintona= 1/2 c/img.
Tambin aplicamos el AEL a las otras tres escalas preestablecidas en el modelo, de manera que disponemos de cuatro representaciones conjuntas, cada una definida esencialmente por la frecuencia espacial de sintona (1/2, 1/4, 1/8 y 1/16 c/img) y la anchura de banda en frecuencia espacial del filtro, indicado por el parmetro T= 0,65. Sobre cada una de estas cuatro representaciones (o escalas) aplicamos otro sencillo algoritmo consistente en ejecutar un bucle de 400 pasos, en esta simulacin (advirtase que la imagen de trabajo hay 64x64= 4.096 pixels). En cada paso del bucle, se localiza, sobre la representacin conjunta (imagen de 512x512 pixels que consta de 16x16=256 teselas o espectros de amplitud) el pixel que produjo un mximo como respuesta al banco de filtros. Despus, marcamos esta posicin, sobre una copia de la imagen de trabajo (de dimensiones 64x64 pixels), y sobre la representacin conjunta (de 512x512 pixels) anulamos esta tesela, que contiene el valor mximo (asignndole el valor 0), con lo que este punto de la imagen queda excluido del ulterior procesado (bucle). Como consecuencia de la compleccin del bucle, dispondremos de una imagen en la que estarn
19
marcadas las respuestas mximas o regiones de inters de dicha imagen. En la Figura 10 se muestran, en las cuatro escalas establecidas, las regiones relevantes marcadas por el algoritmo. Mediante simple inspeccin visual podemos concluir que en la escala 4 y la escala 3, las regiones marcadas concuerdan con las predicciones de los crticos de este arte. Naturalmente, en las escalas 2 y 1, que contienen las bajas frecuencias espaciales, las reas de inters incluyen, todo excepto el cielo del fondo y absolutamente todo, respectivamente.
FIGURA 10.- Regiones de inters, extradas sobre la representacin generada al aplicar a la imagen creada por Goya el Anlisis espectral local. A la izquierda: escala 4 (f0 = 1/2 c/img). Centro: escala 3 (f0 = 1/4 c/img). Derecha: escala 2 (f0 = 1/8 c/img).
La segunda imagen de trabajo consiste en una de las imgenes conocidas como contornos ilusorios (subjetivos, fantasma, etc.) diseadas por Kanizsa ( 1976), que puede observarse en la Figura 11-A. Para simplificar el clculo computacional, utilizamos el negativo fotogrfico de la imagen, ms habitual (crculos negros y fondo blanco), no obstante, es conocido que ambas versiones de la imagen producen consecuencias similares.
FIGURA 11.- A: Imagen de trabajo-3, contorno ilusorio de Kanizza. B, C y D: regiones de inters, extradas al aplicar a la imagen de Kanizza el Anlisis espectral local. B: en escala 4 (f0 = 1/2 c/img). C: en escala 3 (f0 = 1/4 c/img). D: en escala 2 (f0 = 1/8 c/img).
Concretamente, es sabido que, al observar esta figura, la mayora de los sujetos describen su experiencia perceptiva sealando la presencia de un cuadrado oscuro en el centro de la imagen, ocluyendo parcialmente un cuadrante de crculo con cada esquina del cuadrado. Objetivamente hablando, es obvio que no estn presentes los bordes que delimitan el cuadrado central, sino que estos contornos son inventados ilusoriamente por el SV del sujeto. Incluso se ha sealado que esta regin cuadrada central les suele parecer a los sujetos ms oscura que el resto del fondo.
20
FIGURA 12.- Resultado del Anlisis espectral local sobre la imagen de Kanizsa en escala 3 (f0 = 1/4 c/img).
La Figura 12 muestra el resultado de aplicar el AEL a esta figura de Kanizsa en escala 3 (fo=1/4 c/img). En esta escala comienza a configurarse un cierto agrupamiento de los rasgos que producen un cierre de la regin central de la imagen. Al aplicar el AEL a las otras tres escalas prefijadas, obtuvimos otras tres representaciones conjuntas espacio/espectral. Y al seleccionar los puntos de la imagen que producen respuestas mximas del banco de filtros (de Gabor), resultan seleccionadas las regiones que se muestran en la Figura 11 (B= escala 4, C= escala 3, D= escala 2 y E= escala 1). En la escala 2 se resalta la regin central como ms relevante; mientras que, en las escalas que contienen las ms altas frecuencias espaciales, se resaltan los bordes y los vrtices de las esquinas del cuadrado.
21
4. CONCLUSIONES Hemos retomado la nocin de mapas visuales cerebrales como metfora que nos permite mostrar diferentes representaciones, basadas en disposiciones espaciales de la informacin, a las que el SV recurre como estrategia para facilitar la ejecucin de ciertas operaciones, ya sea locales, ya sea globales. Por tanto, aqu, el trmino mapa implica un tipo de representacin en la que no slo se describen explcitamente ciertas caractersticas de los objetos representados, sino que, adems, se define una correspondencia biunvoca entre dos niveles diferentes del SV. Tambin, recogemos la distincin conceptual introducida por Blakemore (1990) entre mapas isomrficos y mapas anisomrficos. Ambos tipos de mapas contienen representaciones distribuidas de la imagen, pero, en el primer caso se ajustan a una correspondencia psicofisiolgica, mientras que, en el segundo caso se ajustan a una correspondencia psico-fsica. Sin embargo, es preciso recordar que el nudo gordiano de la cuestin estriba en desvelar cmo usa el SV esta cartografa y estas representaciones distribuidas para procesar la forma, la textura, la profundidad, el movimiento, el color, etc. Nosotros, aqu, hemos retomado la idea de Barlow (1985) cuando afirma que los mapas revelan nuevas propiedades de la imagen, simplemente estableciendo diversas asociaciones de la informacin (neo-asociacionismo). Nos hemos prefijado dos objetivos, el primero consista en mostrar como se puede obtener uno de los mapas visuales anisomrficos que el cerebro debe contener, aquel que est distribuido en el rea visual primaria y al que ciertos autores (Henschen, 1910; Zeki, 1995) se refieren como retina cortical. Para ello, describimos un posible algoritmo, fundamentado en las evidencias psicofsicas, cuya implementacin computacional aplica el Anlisis espectral local para generar, probablemente, el mapa visual ms polivalente del SV. Esto es, una representacin distribuida de la imagen en V1 (rea 17 de Brodman) que tiene la virtualidad de ser una a representacin conjunta espacio/espectral. Dicha representacin debe jugar un papel fundamental en la visin, ya que sirve de entrada a los diferentes mdulos visuales, conteniendo la informacin de la imagen de tal modo que facilite el ulterior procesamiento en los citados mdulos visuales. De acuerdo con las investigaciones psicofsicas, esta representacin supone la mejor solucin, que la naturaleza ha encontrado, al problema expresado por el principio de incertidumbre aplicado a las representaciones visuales. Lo que ha llevado a concluir que la informacin se representa en el rea estriada tanto en el domino espacial como en el dominio de la frecuencia espacial, es decir, mediante paquetes gaussianos de informacin espectral (ondculas de la TG) localizados espacialmente. Este tipo de representacin usada por el SV ha sido defendida, desde Robson (1975) por numerosos autores (vase Sierra-Vzquez, 1992 y 2000) y dada su importancia debe estudiarse en profundidad y esclarecer sus virtualidades. En la segunda parte de este trabajo hemos presentado un algoritmo para la deteccin temprana (de bajo nivel y automticamente) de regiones correspondientes a objetos cuyo alto contraste les confiere una especial saliencia en la imagen. Previamente, formulbamos la hiptesis de que es
22
posible formar un grupo perceptivo a partir de las respuestas mximas a los filtros lineales locales aplicados a la imagen. En otras palabras, estas respuestas permiten configurar un nuevo mapa en el que se destacan regiones de inters visual. Y, tambin, extendamos la hiptesis de Witkin (1983), circunscrita a la deteccin de seales unidimensionales, al caso bidimensional. En efecto, Witkin mostr que aquellos rasgos de la seal que perduran en una representacin espacio-escala, que l mismo propone, y en la que la escala viene dada por la magnitud de la desviacin tpica () del filtro gaussiano, que utiliza para obtener las diversas escalas, son los ms relevantes de la seal. Esta tesis, que nosotros sepamos, nunca se ha aplicado al caso de seales 2D, como las imgenes. Y los resultados de nuestro trabajo experimental muestran que esta idea no es desacertada, sino ms bien lo contrario. Aunque el apoyo emprico de la hiptesis, por el momento, es dbil, dado que solo se ha verificado ante dos tipos de imgenes diferentes (natural y sinttica), se muestra como una alternativa para elaborar mapas que fundamenten las operaciones de agrupamiento. En este trabajo, de acuerdo con He y Nakayama (1994), se defiende la tesis de que el agrupamiento de regiones no tiene por qu producirse, necesariamente, con posterioridad a la deteccin de bordes. Ciertamente, llama nuestra atencin el hecho, aqu mostrado, de que mediante este procedimiento pueden detectarse regiones comprendidas entre contornos ilusorios (Kanizsa, 1976), las cuales, obviamente, ponen en apuros a las teoras que defienden la deteccin de contornos como operacin previa a la deteccin de grupos perceptuales. Por tanto, aqu se muestra una posible estrategia, plausible neurofisiolgicamente y compatible con las evidencias psicofsicas, para obtener un agrupamiento de elementos locales (regiones) que satisfacen ciertas propiedades (por ejem., que tengan alto contraste). Esta estrategia es til, en cuanto que, resuelve el problema, nada trivial, de cmo realizar un agrupamiento perceptivo utilizando un procedimiento basado en regiones. Tngase en cuenta que la mayora de los algoritmos propuestos obtienen una segmentacin de regiones extrayendo los bordes (lmites, fronteras, contornos), pero no reas de la imagen. La elaboracin de este tipo de mapas de regiones es un ejemplo de proceso global, que toma como punto de partida otros procesos locales y tiene como meta realizar un agrupamiento de elementos de la imagen que satisfacen cierta-s propiedad-es. El reconocimiento de patrones, en particular, y la percepcin de la forma, en general, debe implicar necesariamente la actuacin de procesos globales que operen sobre una amplia zona de la imagen o sobre toda ella. Las caractersticas locales que proporcionan los filtros (funciones gaussianas, de Gabor, etc.) no son suficientes. Como ya mostraron Hubel y Wiesel (1961), en las clulas fotorreceptoras, estas clulas interaccionan con sus vecinas, es decir, de forma local. No obstante, tambin se ha sealado (Kovacs , 1996) la existencia de interacciones largas o en cadena. Las primeras (interacciones cortas) estaran implicadas en la deteccin de bordes, mientras que las segundas (interacciones largas) lo estaran en el agrupamiento y la segregacin figura-fondo.
23
Para finalizar, no queremos dejar de sealar que, dada la gran variedad de estmulos visuales que observamos, el SV debe aplicar una eficiente seleccin de las regiones relevantes de las diferentes escenas. Normalmente, esta seleccin vendr guiada conceptualmente
(procesamiento de arriba-abajo), es decir, por los intereses del sujeto, las demandas de la tarea, las expectativas, etc. Sin embargo, otras veces, procesamos la informacin visual a la que estamos expuestos de modo automtico, especialmente cuando pasamos la mirada sobre la escena o imagen durante un tiempo muy breve. En estas situaciones, en las que se impone un procesamiento automtico, el modelo de deteccin de regiones de inters visual, aqu propuesto, debe jugar un papel crtico.
AGRADECIMIENTOS Este trabajo ha sido financiado por el proyecto PB95-0266 concedido por la DGES del Ministerio de Educacin y Cultura (Espaa).
REFERENCIAS Aznar-Casanova, J.A. (2000). Anlisis multiescala y multiorientacin de imgenes mediante un banco de filtros de Gabor-2D. Cognitiva. Barlow, H.B. (1981). Critical limiting factors in the design of the eye and visual cortex. The Ferrier lecture 1980. Proceeding of the Royal Society of London, B, 212, pp. 1-34. Barlow, H.B. (1985). Cerebral cortex as model builder. En D. Rose y V. Dobson (Eds.): Models of the Visual Cortex, Chichester: John Wiley, pp 37-46. Barlow, H.B. (1990/1994). "Cap. I: Qu ve el cerebro y cmo lo entiende". En H.B. Barlow, C. Blakemore y M. Weston-Smith (Eds.): Imagen y conocimiento. Cmo vemos el mundo y cmo lo interpretamos. Trad. cast.. Barcelona: Crtica. Ttulo original: Images and understanding. Thoughts about images, ideas about understanding. Blakemore, C. (1990). "Cap. II: La comprensin de la imgenes en el cerebro". En H.B. Barlow, C. Blakemore y M. Weston-Smith (Eds.): Imagen y conocimiento. Cmo vemos el mundo y cmo lo interpretamos. Trad. cast.. Barcelona: Crtica. Ttulo original: Images and understanding. Thoughts about images, ideas about understanding. Daniel, P.M. y Whitteridge, D. (1961)The representation of the visual field onthe cerebral cortex in monkeys. Journal of Physiology, 159, pp. 203-221. De Valois, R.L.; Albrecht, D.A. y Torrel, L. (1982a). Spatial frequency selectivity of cells in macaque visual cortex. Vision Research, 22, pp. 545-559. De Valois, R.L.; Yund, E.W. y Hepler, N. (1982b). The orientation and direction selectivity of cells in macaque visual cortex. Vision Research, 22, pp. 531-544.
24
He y Nakayama (1994). Apparent motion determined by surface layout not by disparity or three-dimensional distance. Nature, 367, pp. 173-175. Henschen, S.E. (1910). "Zentrale Sehstrungen". En M. Lewandowsky (Ed.), 2 ed.: Handbuch der Neurologie. Berlin: Springer-Verlag. pp. 891-918. Hubel, D.H. y Wiesel, T.N. (1962). Integrative actions in the cat's lateral geniculate body. Journal of Physiology, 155, pp. 385-398. Hubel, D.H. y Wiesel, T.N. (1962). Receptive fields, binocular interactions and functional architecture in the Cat's Visual Cortex. Journal of Physiology, 160, pp. 106-154. Hubel, D.H. y Wiesel, T.N. (1968). Receptive fields and functional architecture of monkey striate cortex. Journal of Physiology, 195, pp. 215-243. Hubel, D.H. y Wiesel, T.N. (1977). The Ferrier Lecture: Functional architecture of macaque monkey visual cortex. Proceeding of the Royal Society of London, B, 198, pp. 1-59. Hubel, D.H. y Wiesel, T.N. (1982). Exploration of the primary visual cortex, 1955-78 . Naturre, 299, pp. 515-524. Jacobson, L.D. y Wechsler, H. (1988). Joint spatial /spatial frequency representation . Signal Processing, 14, pp. 37- 68. Kahneman, D.(1973): Attention and effort. Prentice-Hall. Englowood Clifts. N.J.
Kanizsa, G. (1976). Subjetive contours. Scientific American, 234, pp. 48-68.
Kovaacs, I. (1996). Gestaltem of today: early processing of visual contours and surfaces. Behavioural Brain Research, 82, 1-11. Maffei, L. (1978). Spatial Frequency Channels: Neural Mechanisms. En R. Held,; H.W. Leibowitz y H.L. Teuber (Eds.). Handbook of Sensory Physiology. Berlin: Springer-Verlag. pp. 39-66 Maffei, L. y Fiorentini, F. (1977). Spatial frequency rows in the striate cortex. Vision Research, 17, pp. 257-264.
Marr, D. (1976). Early processing of visual information. Philosophical Transaction of the Royal Society, London B, 275, 483-524.
Navarro, R. y Tabernero, A. (1991). Gaussian wavelet Transform: two alternative Fast Implementation for images. Multidimensional Systems and Signal Processing, 2, 421-436. Neisser, U. (1967). Cognitive Psychology. New York: Meredith Publishing Company. [Trad. cast. Psicologa cognoscitiva. Mxico: Trillas (1979).] Robson, J.G. (1975). Receptive fields: Neural representation of the spatial and intensive attributes of the visual image. En Carterette y Friedman (Eds.): Handbook of Perception. Vol. V: Seeing. New York: Academic Press, pp 81-116. Rubin, E.(1921). Visuell wahrgenommene figure. Copenhague: Gyldendalske.
25
Sekuler, R. y Blake, R. (1990). Perception. (2d. Ed.). New York: McGraw-Hill. Sierra-Vzquez, V. (1992). Procesamiento visual inicial. En J. Mayor y J.L. Pinillos (Eds.): Atencin y percepcin. Madrid: Alhambra Universidad. pp. 163-312. Sierra-Vzquez, V. (2000). Representaciones conjuntas espacio-frecuencia en Psicofsica Visual. Parte I: Fundamentos 1D. Cognitiva, N X, pp xx-xx. Ullman, S. (1996). High level Vision. Object recognition and visual cognition. The MIT Press. Massachusetts Institute of Technology. Witkin, A.P. (1983). Scale-space filtering. In Proceeding 8th International Joint Conference on Artificial Intelligence, vol. 2, pp. 1019-1022. Zeki, S. (1981). "The mapping of visual functions in the cerebral cortex". En Y.Katsuki, R.Norgren y M.Sato (Eds.): Brain Mechanisms of Sensation, New York: John Wiley, pp. 105-128. Zeki, S. (1992/1995). A Vision of the Brain. Oxford. Trad. castellana de J.Soler: Una visin del cerebro. Barcelona: Ariel.
26

Analisi Espectral Local Visual Saliency

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analisi Espectral Local Visual Saliency

Uploaded by

Copyright:

Available Formats

Deteccin de regiones de inters visual mediante Anlisis Espectral Local de la imagen.

(( x cos 0 + ysin 0 ) 2 + T 2 ( xsin 0 + y cos 0 ) 2 )

(( x cos 0 + ysin0 )2 + T2 ( xsin0 + y cos 0 )2 ) e i 2f0 ( x cos 0 + ysin0 ) e i [2]

Donde g* indica el conjugado complejo del filtro de Gabor 2D (gx,y,f,)

3. EL MAPA VISUAL CORTICAL SEALA REGIONES DE INTERES EN LA IMAGEN?

Kanizsa, G. (1976). Subjetive contours. Scientific American, 234, pp. 48-68.

You might also like