You are on page 1of 15

Clasificación automática de nubes de imágenes de todo el

cielo.
Resumen. El reciente desarrollo en aumento de imágenes de cielo completo permite
observaciones de cielo de altas resoluciones temporales y espaciales.

Una aplicación que ya se realizó en la mayoría de los casos es la estimación de la cubierta de


cielo fraccional. Sin embargo, todavía se está realizando una distinción entre los diferentes tipos
de nubes.

Aquí, se presenta un algoritmo automático de clasificación de la nube, basado en un conjunto


de características principalmente estadísticas que describen el color y la textura de una imagen.
El clasificador k-vecinos cercanos (KNN) se utiliza debido a su alto rendimiento en la resolución
de problemas complejos, la simplicidad de la implementación y la baja complejidad
computacional. Se distinguen siete condiciones de cielo diferentes: nubes altas y delgadas (cirros
y cirrostratos), nubes cumuliformes parcheadas altas (cirrocúmulos y altocúmulos), nubes
estratocúmulos, nubes cumuliformes bajas, nubes gruesas (cumulonimbus y nimbostratus),
nubes estratiformes y cielo despejado. Basado en la validación cruzada Leave-One-Out (LOO), el
algoritmo alcanza una precisión de alrededor del 97%.

Además, se presenta una ejecución de prueba de imágenes aleatorias, que aún supera a los
algoritmos anteriores al proporcionar una tasa de éxito de aproximadamente el 75%, o hasta el
88% si solo se consideran errores "graves" con respecto al impacto de la radiación. Se discuten
las razones de la disminución de la precisión y se investigan las ideas para mejorar aún más los
resultados de la clasificación, especialmente en casos problemáticos.

1. Introducción

Las nubes son una de las fuerzas más importantes del equilibrio térmico y del ciclo hidrológico
de la Tierra y, al mismo tiempo, una de las menos comprendidas. Es bien sabido que las nubes
bajas proporcionan una retroalimentación negativa y las nubes altas y delgadas una
retroalimentación positiva sobre el balance de radiación. Sin embargo, aún se desconoce el
efecto neto de las nubes y causan grandes incertidumbres en los modelos climáticos y las
predicciones climáticas (Houghton et al., 2001).

El efecto de las nubes sobre la radiación solar y terrestre se debe a la reflexión y absorción de
las partículas de la nube y depende en gran medida del volumen, la forma, el espesor y la
composición de las nubes. La información de la nube a gran escala está disponible desde varios
satélites, pero dichos datos se proporcionan en una resolución baja y pueden contener errores.
Por ejemplo, las nubes pequeñas a menudo se pasan por alto debido al campo de visión limitado
del radiómetro. Las nubes y la superficie bajas o delgadas se confunden con frecuencia debido
a su brillo y temperatura similares (Ricciardelli et al., 2008; Dybbroe et al., 2005). Además, la
radiación solar que llega al suelo con respecto al tipo de nube no se puede determinar, aunque
esto es esencial para los estudios de radiación en la nube.

Hoy en día, los dispositivos de imágenes terrestres se usan comúnmente para respaldar estudios
satelitales (Cazorla et al., 2008; Feister y Shields, 2005; Sakellariou et al., 1995).
Uno de los fabricantes comerciales más conocidos de dichos instrumentos es el Instituto de
Oceanografía Scripps de la Universidad de California en San Diego. Sus "imagines de todo el
cielo" están construidos para medir la luminosidad del cielo en diversas bandas de longitud de
onda (espectro visible e infrarrojo cercano) en todo el hemisferio (Shields et al., 1998, 2003).
Debido a los componentes de alta calidad involucrados, estas imágenes suelen ser demasiado
caras para pequeños grupos de investigación. Por lo tanto, como una alternativa rentable,
algunas instituciones de investigación en varios países han desarrollado cámaras aéreas no
comerciales para sus propios requisitos (Pages et al., 2002; Seiz et al., 2002; Pfister et al., 2003;
Souza -Echer et al., 2006; Kalisch y Macke, 2008). En la mayoría de los casos, se utiliza un objetivo
de ojo de pez que mira hacia arriba para visualizar todo el cielo con un campo de visión (FOV)
de aproximadamente 180◦.

Ya existen algoritmos individuales para estimar automáticamente la cobertura de nubes para


muchos de ellos (Pfister et al., 2003; Long et al., 2006; Kalisch y Macke, 2008). Sin embargo, el
reconocimiento automático del tipo de nube todavía está en desarrollo y se han publicado pocos
artículos sobre ese tema.

En un estudio anterior, Singh y Glennen (2005) presentan un enfoque de clasificación de nubes


para imágenes digitales comunes (sin 180 FOV) para ser utilizadas en el control del tráfico aéreo.

Se han extraído numerosas características y se han utilizado para distinguir cinco condiciones de
cielo diferentes, pero los autores reconocen sus resultados como modestos. Otro artículo
reciente (Calbo y Sabburg, 2008) presenta algunos criterios posibles para que las imágenes del
cielo clasifiquen ocho condiciones del cielo predefinidas. Esas características incluyen
características estadísticas, características basadas en la transformada de Fourier y
características que necesitan la distinción previa entre píxeles claros y nublados. Sin embargo,
el clasificador se basa en un método de clasificación muy simple y alcanza una precisión de solo
el 62%. Otras publicaciones tratan problemas más simples, como la estimación de la altura de la
base de la nube o la identificación de nubosidad fina y gruesa (p. Ej., Seiz et al., 2002; Kassianov
et al., 2005; Long et al., 2006; Cazorla et al., 2008 ; Parisi et al., 2008). Parisi et al. (2008) en
particular informan que no pudieron clasificar el tipo de nube.

El objetivo de este estudio es el desarrollo de un algoritmo totalmente automatizado que


clasifique imágenes de todo el cielo en tiempo real con alta precisión. La cámara de la nube y los
datos de imagen asociados se introducen en la siguiente sección. En la sec. 3 se presentan las
características utilizadas para clasificar los tipos de nubes, así como el algoritmo, un clasificador
de vecino más cercano (kNN) que asigna las imágenes preprocesadas debido a su vector de
características a una de las siete condiciones de cielo diferentes. El rendimiento y los resultados
del algoritmo se analizan en la Sección. 4, y la sec. 5 contiene el resumen y las propuestas para
futuras investigaciones.

2 Datos

2.1 Cámara

Las imágenes utilizadas para desarrollar el algoritmo han sido obtenidas por una de las dos
cámaras en la nube construidas para permitir observaciones de cielo continuo rentables para
investigaciones asociadas con la transferencia radiativa en el Instituto de Ciencias Marinas de
Leibniz en la Universidad de Kiel (IFM-GEOMAR).

Estas "imágenes de todo el cielo" se basan en componentes disponibles comercialmente y están


diseñadas para ser independientes de la ubicación y se ejecutan en condiciones climáticas
adversas, ya que una de ellas opera principalmente a bordo de un barco de investigación. El
componente básico es una cámara digital equipada con un lente ojo de pez para proporcionar
un campo de visión más grande que 180º, encerrado por una caja resistente al agua y al clima.
Para obtener una alta resolución temporal, las cámaras están programadas para adquirir una
imagen cada 15 s, almacenadas en formato JPEG en color de 30 bits con una resolución máxima
de 3648 × 2736 píxeles. Como tales, las imágenes tienen forma rectangular, pero todo el cielo
mapeado es circular, donde el centro es el cenit y el horizonte está a lo largo del borde
(proyección esférica, ver Fig. 1). Se pueden encontrar más detalles sobre las cámaras y su uso
en Kalisch y Macke (2008).

2.2 Imágenes

Para el desarrollo del algoritmo de clasificación de tipo de nube, se utilizan imágenes con una
resolución de 2272 × 1704 píxeles capturadas durante un tránsito del buque de investigación
alemán "Polarstern" de Alemania a Sudáfrica en otoño de 2007 (ANT XXIV / 1) ( Schiel, 2009). En
el curso de esta expedición, se cruzaron diferentes zonas climáticas en varias estaciones y, por
lo tanto, los datos adquiridos cubren una amplia gama de posibles condiciones del cielo y
ángulos cenitales solares.

Para crear un conjunto de imágenes requerido para la búsqueda de características y el


entrenamiento posterior del clasificador de tipo de nube, seleccionamos el conjunto de datos
completo y seleccionamos aproximadamente 1500 imágenes de todo el cielo de las 75 000
obtenidas a bordo en total. El procedimiento de selección se centró en la independencia
temporal y la singularidad con respecto a nuestras clases de nube predefinidas (consulte la
siguiente sección). Además, nos aseguramos de que el conjunto de imágenes final incluya una
gran variedad de formas de nubes diferentes, así como imágenes de diferentes horas del día y,
en consecuencia, diferentes estados del ángulo cenital solar.

El conjunto de entrenamiento generado de esta manera, llamado TRAIN, contiene


aproximadamente 200 imágenes independientes por clase de nube.

3 Algoritmo

En esta sección, se presentan las clases de nubes individuales, seguido de una introducción a la
metodología del clasificador aplicada, el clasificador kNN. Luego describimos el
preprocesamiento de los datos del generador de imágenes y explicamos las características
integradas, así como el método de selección de características.
Tabla 1. Clases a distinguir:

Etiqueta Géneros de nubes de acuerdo con la Descripción


WMO
1 Cumulus Nubes bajas e hinchadas con bordes claramente
definidos, blanco o gris claro.
2 Cirrus & Cirrostratus Nubes altas y delgadas, cubiertas de guirnaldas
o cielo, blanquecinas.
3 Cirrocumulus & Altocumulus Nubes altas parcheadas de pequeñas nubes,
similares a mosaicos, blancas
4 Clear sky Sin nubes y nubosidad por debajo del 10%.
5 Stratocumulus Nivel bajo o medio, grumosa capa de nubes,
rota o casi nublada, blanca o gris
6 Stratus & Altostratus Capa de nubes de nivel bajo o medio, uniforme,
generalmente cubierta, gris
7 Cumulonimbus & Nimbostratus Nubes oscuras y gruesas, mayormente
cubiertas, grises.

3.1 Clases de nubes

A diferencia de otras publicaciones que manejan la clasificación automatizada de la nube,


usamos clases fenomenológicas para separarnos de acuerdo con el Sistema Internacional de
Clasificación de la Nube (ICCS) publicado en WMO (1987). En él, se definen diez géneros que
representan la base de nuestra clasificación.

Basados en la similitud visual, combinamos algunos géneros (altosestratos y estratos,


cirrocúmulos y altocúmulos, cumulonimbos y nimbosestratos) para evitar errores de
clasificación sistemáticos.

Además, fusionamos los géneros cirros y cirrostratos debido a la falta de datos disponibles que
muestran estos últimos, así como la dificultad para detectar nubes muy delgadas, como algunos
tipos de cirrosestatos. Además, debe tenerse en cuenta que la clase de cielo despejado incluye
no solo imágenes sin nubes, sino también imágenes con nubes por debajo del 10%.

A pesar de estas generalizaciones, las clases resultantes (ver Tabla 1) representan una partición
adecuada de las posibles condiciones del cielo y son especialmente útiles para estudios de
radiación. Para simplificar la aplicación de las clases en la nube, cada una está etiquetada con
un número de identificación individual (consulte también la Tabla 1).

3.2 clasificador

Clasificar las imágenes descritas en la sec. 2, se elige el método "k-el más cercano" (kNN), que
forma parte de los clasificadores supervisados no paramétricos (Duda y Hart, 2001).

"Supervisado" significa que las clases de separación son conocidas y se utiliza una muestra de
entrenamiento para entrenar al clasificador. Los clasificadores no paramétricos en general no
asumen una distribución de probabilidad a priori. Comparado con otros clasificadores, el
método kNN es muy simple (y, por lo tanto, está asociado con bajos costos de computación) y,
al mismo tiempo, bastante poderoso (Serpico et al., 1996; Vincent y Bengio, 2001; Duda y Hart,
2001). Incluso en el campo específico del reconocimiento del tipo de nube, existen algunos
resultados para la comparación con clasificadores lineales y redes neuronales, lo que subraya el
alto rendimiento de los clasificadores kNN (Singh y Glennen, 2005; Christodoulou et al., 2003).
clasificador kNN. La asignación de una imagen a una clase específica utilizando clasificadores
kNN se realiza por mayoría de votos.

Después del preprocesamiento, se extraen varias características espectrales y texturales de una


imagen. En el siguiente paso, el vector de características x calculado y normalizado se compara
con los vectores de características conocidos xi de cada elemento en los datos de entrenamiento
por medio de una medida de distancia, en nuestro caso, la distancia de Manhattan.

La clase asociada con la mayoría de las k coincidencias más cercanas determina la clase
desconocida. En el caso de que esta mayoría no sea única, la fecha de entrenamiento con la
distancia más pequeña absoluta a la imagen desconocida especifica la clase objetivo. Por lo
tanto, la composición de la muestra de entrenamiento y una selección meticulosa de imágenes
adecuadas es de gran importancia.

Complejidad. El clasificador kNN a menudo es criticado por el lento rendimiento en tiempo de


ejecución y los grandes requisitos de memoria (en otras palabras, alta complejidad de tiempo y
espacio, respectivamente).

La complejidad del tiempo de un algoritmo es una medida de cuánto tiempo de cálculo se


necesita para ejecutar el algoritmo y, por lo tanto, depende del número de pasos de cálculo. En
el caso de la clasificación de imágenes, esta medida se refiere al gasto computacional al clasificar
una imagen desconocida. Usando el clasificador kNN, todas las distancias entre el vector de
características de esta imagen y cada uno de los n miembros de la muestra de entrenamiento
son necesarias para el cálculo. Estas distancias dependen de la dimensión d del vector de
características y obtenemos una complejidad total de O (nd) (aquí n = 1497 y d = 12).

Como los métodos kNN almacenan un conjunto de prototipos en la memoria una vez, la
complejidad del espacio de dicho algoritmo también es O (nd).

3.3 Pre-procesamiento

Para obtener características adecuadas para separar las clases definidas, es necesario eliminar
algunas áreas de las imágenes sin procesar analizadas, ya que tienen forma rectangular, pero la
parte interesante, el cielo mapeado, es circular. Debido a la ubicación variada de las cámaras,
los factores perturbadores como las superestructuras de los barcos o los edificios elevados
también pueden incluirse en la imagen y deben excluirse de otros cálculos.

Además, los análisis mostraron que es útil segmentar las imágenes en áreas claras y nubladas
antes de calcular las características.

Por lo tanto, primero se utiliza una máscara de imagen, construida identificando visualmente las
regiones de imagen que contienen información de confusión. La máscara adapta las secciones
detectadas, así como los píxeles completamente blancos (como los que muestran el sol) al fondo
mediante el establecimiento de todos los valores de píxeles correspondientes a cero. Luego, el
área restante se divide píxel por píxel en regiones claras y nubladas, utilizando sus valores de
píxel rojo y azul.
En una atmósfera clara (sin aerosoles), las moléculas de gas dispersan más luz azul que roja, por
lo que el cielo claro se ve azul a nuestros ojos. En contraste, las nubes (que contienen partículas
como aerosoles, gotas de agua y / o cristales de hielo) dispersan la luz azul y roja en un grado
similar, lo que hace que aparezcan de color blanco o gris (Petty, 2006). Por lo tanto, las regiones
de imágenes con cielo despejado muestran valores de píxeles rojos relativamente más bajos en
comparación con las regiones que muestran nubes, y la relación R / B puede usarse para
diferenciar estas áreas. Se debe determinar un umbral de separación, cuyo valor exacto depende
tanto de la cámara utilizada como de las condiciones atmosféricas prevalecientes. Los valores
adecuados se discuten en varios artículos que manejan la estimación de la cobertura de nubes
(por ejemplo, Pfister et al., 2003; Long et al., 2006).

Sin embargo, durante la fase de prueba, notamos problemas al detectar nubes gruesas y al
mismo tiempo clasificar los píxeles circumsolares. Por lo tanto, modificamos el criterio y
consideramos la diferencia R − B en lugar de la relación R / B. Las comparaciones demostraron
que la segmentación que utiliza un umbral de diferencia de este tipo todavía produce errores
menores, pero supera el método de relación. Para nuestra aplicación, el valor R − B = 30 es
óptimo (ver Fig. 2).
3.4 Características utilizadas

De las numerosas características probadas (por ejemplo, las características que describen el
borde o el color, las características considerando la longitud de ejecución de las primitivas, su
cantidad o frecuencia, o las características que describen la textura de una imagen),
seleccionamos 12 funciones para la aplicación (ver más abajo). La elección de estas
características se basa en sus Distancias Fisher Fx ij, un criterio de selección utilizado en el
trabajo de clasificación de nubes relacionado con imágenes satelitales (Pankiewicz, 1995).

Se define como donde μxi y μxj son la media de la característica x con respecto a la clase i y j,
(sigma) xi y (sigma) xj las desviaciones estándar correspondientes.

Las características más adecuadas para separar las clases definidas son aquellas que tienen las
distancias de Fxij más grandes de Fisher.

Cabe señalar, sin embargo, que el conjunto de características elegido de esta manera debe
garantizar la separación de todas las clases. Eso significa que las características con distancias de
Fisher más pequeñas también deben incluirse en el conjunto final, si discriminan las clases que
no están separadas por otras características con distancias más altas.

La mayoría de las funciones se basan en imágenes en escala de grises. Dado que los datos
originales se proporcionan en color, se debe realizar una partición en los tres componentes R, G
y B antes de poder calcular las características. Una transformación simple proporciona las
imágenes en escala de grises, que contienen solo la información de color de un canal (R, G o B).

Rasgos espectrales. Las características espectrales describen el color promedio y la variación


tonal de una imagen. En la clasificación de nubes, son útiles para distinguir entre nubes oscuras
gruesas, como cumulonimbus, y nubes más brillantes, como nubes cumuliformes altas, y para
separar nubes cirros altas y transparentes de otras.

Las características espectrales implementadas en el algoritmo son las siguientes:


En los corchetes, R, G y B especifican el color para el cual se calcula la característica individual.
Debido al color del cielo y la diferente translucidez de las nubes, el componente de color B tiene
el mayor poder de separación. Por lo tanto, la mayoría de las características se calculan para la
imagen en escala de grises que contiene la información del color B.

Las características espectrales como las de arriba admiten una división de clases en la nube, pero
considerarlas no es suficiente.

No proporcionan información sobre la distribución espacial del color en una imagen. Sin
embargo, en la mayoría de los problemas de reconocimiento de patrones y particularmente en
el reconocimiento del tipo de nube, esta distribución es igualmente significativa. Por ejemplo,
las imágenes que muestran nubes cúmulos y otras que muestran nubes altocúmulos o
estratocúmulos tienen valores de color medios similares y no se pueden separar con esas
características. Por otro lado, su distribución espacial del color es bastante diferente, y se
pueden agregar otros tipos de características para separar esos casos.

Rasgos texturales. Para describir la textura de una imagen, se pueden usar medidas estadísticas
calculadas a partir de matrices de coexistencia de nivel de grises (GLCM). Un GLCM es una matriz
cuadrada para la cual el número de filas es igual al número de niveles de gris en la imagen
considerada. Cada elemento de la matriz representa la frecuencia relativa P-D(a, b) en la que
aparecen dos píxeles, separados en una dirección definida por una distancia de píxeles D = (Dx,
Dy), uno con valor gris a y otro con valor gris b. Para evitar la dependencia de la orientación de
la imagen, a menudo una matriz promedio se calcula a partir de dos o cuatro matrices, que
expresan direcciones mutuamente perpendiculares. Además, debido a que el cálculo de GLCM
aumenta considerablemente con el aumento del número de niveles de intensidad G, es
ventajoso reducir el número original (G = 256) de los niveles de gris.Las características de la
textura utilizadas en este estudio son las siguientes cuatro de las 14 medidas estadísticas
propuestas por Haralick et al. (1973), calculado a partir de un GLCM promedio con una distancia
de píxeles D = (1,1):
Tabla 2. Matriz de confusión de CV para las características igualmente involucradas en %.

Cubierto de nubes. Además de las características descritas anteriormente, calculamos la


cobertura de la nube (CC):

- Cubierto de nubes

CC: = Nbew / N, (11)

donde Nbew denota el número de píxeles nublados.

CC es una medida de la nubosidad promedio, y por ejemplo, las nubes estratiformes podrían
distinguirse bien de otras condiciones del cielo utilizando esta función.

Para cada imagen preclasificada en la muestra de entrenamiento TRAIN, calculamos las


características presentadas y las almacenamos con su clase de nube asignada. Dado que el
clasificador kNN elige la clase objetivo de una imagen desconocida en función de su distancia en
el espacio de características a las imágenes de entrenamiento y las características difieren en
sus rangos de valores, normalizamos las características al intervalo [0,100]. Esto asegura que
todas las funciones se ponderen de manera equitativa en el proceso de decisión.

4. Resultados y discusión

En esta sección, describimos la metodología utilizada para estimar el rendimiento del algoritmo
creado, así como para optimizar los parámetros incluidos y los resultados respectivos.
Posteriormente, se presenta una muestra de prueba adicional de imágenes aleatorias para
evaluar el rendimiento del algoritmo en la clasificación de imágenes más ambiguas.

El algoritmo se implementó en IDL y se probó en un Intel Celeron 530 con 1.73 GHz y 512 MB de
RAM. Para una imagen, se necesitaron aproximadamente 1,3 s para devolver el resultado de la
clasificación.

4.1 Metodología de estimación del desempeño.

Para estimar el rendimiento de las funciones seleccionadas y el algoritmo creado, aplicamos la


validación cruzada Leave-One-Out (LOOCV). Los métodos de validación cruzada en general
tienen la ventaja de que reutilizan la muestra de entrenamiento conocida para estimar la
capacidad de un algoritmo, sin embargo, son imparciales, en lugar de necesitar una muestra de
prueba adicional (Ripley, 2005). Por lo tanto, a menudo se utilizan para la validación o selección
de características en el área de reconocimiento de patrones. En el reconocimiento de tipo de
nube, la LOOCV ha sido aplicada, por ejemplo, por Tag et al. (2000) o Bankert y Wade (2007).
LOOCV. De la muestra de entrenamiento T, se elimina un solo elemento t y el algoritmo se
entrena con los datos restantes (T −t). Luego se clasifica el elemento excluido, que es
independiente de los datos utilizados para la capacitación. Esto se repite n veces, donde n es el
número de elementos en T, de manera que cada elemento en la muestra de entrenamiento se
usa para la validación exactamente una vez. El número promedio de elementos clasificados
correctamente se usa finalmente como medida del rendimiento.

Primeros resultados Los resultados del primer LOOCV realizado se dan en la Tabla 2. Todas las
características estuvieron involucradas por igual en el proceso de clasificación y el parámetro k,
el número de vecinos considerados (ver Sección 3.2), se estableció en 3 como primera
estimación. Vemos una precisión general de alrededor del 96%, donde la clase clara muestra los
mejores resultados de clasificación con 98.8%.

Las confusiones de esta clase existen principalmente con nubes cirros y también raramente con
nubes cúmulos en caso de poca nubosidad.

Esto es causado por partes delgadas y transparentes de las nubes cirros que no pueden ser
detectadas por el algoritmo. En consecuencia, tales imágenes se clasifican como cielo despejado.
Además, el llamado "efecto de blanqueo" proporciona una clasificación errónea de píxeles libres
de nubes cerca del disco solar. Dichos píxeles son a menudo más blancos y brillantes que el resto
del hemisferio debido a la dispersión hacia delante por aerosoles y neblina (ver Fig. 3, izquierda)
y, por lo tanto, son interpretados como nubes delgadas por el algoritmo (ver también Long y
otros, 2006).

La mayoría de las clases de nubes restantes muestran precisiones de aproximadamente el 96%


o el 97%, excepto la clase de cúmulos y la clase de cúmulos altos. Ambos tienen índices de
aciertos ligeramente más bajos debido a las confusiones entre ellos, lo que se debe a la dificultad
para distinguir estas dos clases. Se diferencian solo en el tamaño de las nubes individuales para
las cuales no existe un límite claro, por lo que una discriminación puede ser extremadamente
difícil.
Los siguientes errores notables se producen entre estratocúmulos, estratos y la clase de nubes
gruesas. Algunos casos de estratocúmulos se clasifican como estratos, algunas imágenes que
muestran estratos se asignan a los que muestran nubes gruesas y, a su vez, las imágenes con
nubes gruesas a veces se clasifican como estratocúmulos.

Estas confusiones, sin embargo, son bien entendidas. Las tres clases ocurren frecuentemente
como formas de transición de una en la otra y la clasificación automática de tales imágenes
podría diferir de la preclasificación manual.

También, las clasificaciones erróneas de algunas imágenes que muestran estratos y nubes
gruesas parecen ser causadas por gotas de lluvia en la cámara que protege el domo (ver Fig. 3,
derecha). Naturalmente, las gotas también se mapean en las imágenes y conducen a valores de
características de textura similares a los que representan altocúmulos y cirrocúmulos
irregulares.

Aparte de estos errores, los primeros resultados, basados en la suposición de utilizar 3 vecinos
más cercanos, son bastante buenos. Sin embargo, queríamos ver si el rendimiento del algoritmo
podría mejorarse utilizando otro valor de k o ponderando las características individuales.

Resultados mejorados. Para el LOOCV discutido anteriormente, todas las características fueron
ponderadas por igual. Para evaluar si se pueden lograr mejoras variando el impacto de las
características individuales, agregamos un vector de peso y ejecutamos el LOOCV para
diferentes configuraciones de este vector. Además, dado que k, el número de vecinos
considerados, es un parámetro variable, la LOOCV también se ha llevado a cabo para diferentes
valores de k.

La Tabla 3 presenta precisiones generales para k = 3 y k = 5 usando los vectores de peso wy,
definidos por i E {1,...,12}.
Table 4. Confusion matrix of CV for optimal weighted features in %. (Matriz de confusión de CV para características
ponderadas óptimas en%.)

Imagen que muestra cirros y cúmulos (04 de noviembre de 2007, 09:39 UTC) (izquierda), imagen
que muestra un cielo despejado durante un evento de polvo (08 de noviembre de 2007, 13:40
UTC) (derecha).

En otras palabras, la característica y está ponderada x veces, mientras que las otras se ponderan
una vez. Como puede verse en la Tabla 3, k = 3 supera a k = 5 para todos los pesos. Además, las
características ponderadas parecen tener cierto potencial para mejorar la tasa de clasificación.
El mejor rendimiento en nuestros análisis se realizó con el siguiente peso: EN, ENT, CON, MER,
MEB, DRG, SD, SK y CC se califican una vez, HOM y DRB se ponderan dos veces y DGB se cuenta
tres veces, lo que indica que La distinción entre las clases de nubes definidas en este estudio es
más factible utilizando la homogeneidad del cielo y el color del cielo. Los análisis también
mostraron que los valores de k> 3, en general, producen un rendimiento que disminuye
continuamente.

Por lo tanto, nuestra primera suposición, el valor k = 3, se confirmó como la mejor opción.

La Tabla 4 muestra la matriz de confusión de LOOCV para k = 3 utilizando el vector de peso


presentado anteriormente. En comparación con los primeros resultados (sin características
ponderadas), el rendimiento general aumenta al 97,1%. En particular, las tasas de aciertos de
las clases 1, 2, 3 y 7 aumentan, por lo que la clase de cúmulos mejora en casi un 3%. La tasa de
clase 4, la clase de cielo despejado, sigue siendo la misma y la precisión de las clases 5 y 6
disminuye ligeramente debido a más confusiones entre las últimas tres clases en comparación
con los primeros resultados.

4.2 Muestra de prueba aleatoria.

Además de la evaluación utilizando el LOOCV, probamos el algoritmo con una muestra de datos
aleatorios adicionales, llamada TEST, para señalar los problemas que surgen al clasificar
imágenes que no necesariamente muestran una clase de nube única o que contienen
interferencias como el polvo (ver Fig. 4) .

De los datos obtenidos a bordo de “Polarstern” durante ANT XXIV / 1 (ver Sección 2.2), se
seleccionó al azar un conjunto de 275 imágenes, que cubren todas las clases de nubes como se
define en la Tabla 1.

Clasificamos manualmente cada uno de ellos en una categoría de nube única, incluso si la
asignación era discutible. En consecuencia, las diferencias en los resultados de clasificación del
algoritmo en comparación con este manual "clasificación de referencia" son inevitables y debe
aceptarse un cierto sesgo.

Tabla 5. Matriz de confusión de la muestra aleatoria TEST (275 imágenes) en% y absoluto.

Tabla 6. Matriz de confusión de la muestra aleatoria TEST (275 imágenes) para errores graves
en% y absoluto.

Resultados La tabla 5 muestra las tasas de aciertos correspondientes. En comparación con las
precisiones logradas por la LOOCV, observamos una disminución de la tasa de clasificación
promedio de 97.06% a 74.58%, donde la tasa de la clase estratocúmulo es decisiva.

En relación a la clasificación manual, solo el 41,30% de estas imágenes están correctamente


clasificadas. Las imágenes restantes se asignan a altocúmulos o estratos, tipos de errores de
clasificación ya anotados en la Sección. 4.1 y en general difíciles de evitar. Mirar las imágenes
correspondientes revela que muestran nubes primordialmente en transición y, por lo tanto, el
resultado del algoritmo es preciso. Además, para el uso en estudios de transferencia radiativa,
tales desajustes, así como algunas otras clasificaciones erróneas, como las confusiones entre
cúmulos y altocúmulos, pueden considerarse errores "permisibles" debido a un impacto similar
en la radiación (Rossow y Schiffer, 1991).

Si consideramos el siguiente paso solo los errores “serios” en lo que respecta a los análisis de
radiación, lo que significa que las confusiones además consideradas como errores de
clasificación son las de nubes que difieren significativamente en su impacto sobre la radiación
(por ejemplo, cirros y estratonubes), obtenemos otro resultado. Las tasas de aciertos
correspondientes se constituyen en la Tabla 6, en la que también se excluyen las
interpretaciones erróneas de nubes cúmulos como nubes gruesas y las de cúmulos altos como
cirros, ya que las imágenes involucradas son casos marginales y una asignación a ambas clases
de nubes es aceptable. Aquí, el TEST de muestra aleatoria arroja una tasa de clasificación global
del 87,52%. La parte principal de las clasificaciones erróneas restantes son confusiones entre
cúmulos, cirros y cielo despejado. Verificando nuevamente las imágenes correspondientes
muestra que, sin excepción, cada una de ellas muestra menos del 30% de nubosidad, lo que
indica que esta puede ser la fuente de error.

Otras pocas confusiones ocurren entre imágenes que muestran cúmulos altos, estratos o nubes
gruesas. Una vez más, las imágenes respectivas son casos marginales y cada una de estas
asignaciones es aceptable.

5 Resumen y conclusiones

En este estudio, presentamos un método automático para clasificar imágenes digitales simples
en clases de nubes similares a los géneros de ICCS. Hemos demostrado que la distinción de estos
géneros es posible utilizando solo características estadísticas de primer y segundo orden, al
menos en combinación con conocimiento de la nubosidad real.

Considerando imágenes obviamente asignables, las clases mejor reconocidas por el algoritmo
kNN son cielo despejado y cirros.

Si también se permiten imágenes ambiguas para el proceso de clasificación, aparecen algunas


confusiones más entre estas dos clases debido al efecto de blanqueamiento presentado en la
Secc. 4.

Un enfoque ya probado en el proceso de nuestro estudio para evitar este error causado por la
mala interpretación de los píxeles cerca del sol es la determinación de la posición del disco solar
y su eliminación. Esto se puede lograr mediante el uso de características geométricas, el
conocimiento del tiempo y la ubicación cuando se toma la imagen o la inspección de las series
de tiempo (Si una "nube" no se mueve, es probable que esta "nube" sea el área alrededor del
sol visible). En caso de que el disco solar se muestre en una imagen, los píxeles alrededor podrían
excluirse geométricamente de otros cálculos o mediante el uso de una retención adicional.

Otro error notable, la confusión entre cirros y cúmulos, ocurre principalmente en el caso de que
la nubosidad sea inferior al 30%. Es concebible que aquí un proceso de clasificación jerárquica
pueda llevar a mejoras.

Después de una primera división según la nubosidad, la asignación adicional a una clase de nube,
especialmente a una de estas clases, podría ser más evidente.
Las clases restantes se reconocen bastante bien. Existen algunas confusiones más entre el
cúmulo y el cúmulo alto debido a su similitud en el color y la transición suave en la definición.

También se producen confusiones entre las últimas tres clases, estratocúmulos, estratos y nubes
gruesas. La razón es el cambio frecuente de una clase a otra, un fenómeno natural que siempre
conducirá a algunas clasificaciones erróneas de estas clases utilizando métodos automáticos.

Otro problema, no visible en los resultados de LOOCV, pero que ocurre en el análisis de datos
aleatorios, es la asignación de clase incorrecta debido a la aparición simultánea de más de una
clase de nube predefinida. En la naturaleza, el cielo a menudo proporciona un amplio espectro
de diferentes tipos de nubes al mismo tiempo, por ejemplo. cirrostratos y estratocúmulos o
cirros y cúmulos frecuentemente ocurren juntos. Para evitar errores de clasificación debido a
este fenómeno, sugerimos una partición inicial de las imágenes en subimágenes más pequeñas
y su clasificación por separado. Sin embargo, es importante verificar si estas subimágenes aún
incluyen suficiente información para asignar las partes de la imagen a una clase de nube.
Estamos convencidos de que mediante el uso de las sugerencias explicadas anteriormente y, por
lo tanto, una eliminación de los errores causados por imágenes cuestionables, es posible una
mejora del algoritmo.

Además, otras características no mencionadas también pueden llevar a un aumento del


rendimiento del algoritmo. Sin embargo, el algoritmo aquí presentado es ya bastante potente y
adecuado para fines de investigación. Por ejemplo, en el Instituto Meteorológico de IFM-
GEOMAR en Kiel, el algoritmo implementado está actualmente en uso y disponible para las
personas interesadas.

You might also like