Professional Documents
Culture Documents
cielo.
Resumen. El reciente desarrollo en aumento de imágenes de cielo completo permite
observaciones de cielo de altas resoluciones temporales y espaciales.
Además, se presenta una ejecución de prueba de imágenes aleatorias, que aún supera a los
algoritmos anteriores al proporcionar una tasa de éxito de aproximadamente el 75%, o hasta el
88% si solo se consideran errores "graves" con respecto al impacto de la radiación. Se discuten
las razones de la disminución de la precisión y se investigan las ideas para mejorar aún más los
resultados de la clasificación, especialmente en casos problemáticos.
1. Introducción
Las nubes son una de las fuerzas más importantes del equilibrio térmico y del ciclo hidrológico
de la Tierra y, al mismo tiempo, una de las menos comprendidas. Es bien sabido que las nubes
bajas proporcionan una retroalimentación negativa y las nubes altas y delgadas una
retroalimentación positiva sobre el balance de radiación. Sin embargo, aún se desconoce el
efecto neto de las nubes y causan grandes incertidumbres en los modelos climáticos y las
predicciones climáticas (Houghton et al., 2001).
El efecto de las nubes sobre la radiación solar y terrestre se debe a la reflexión y absorción de
las partículas de la nube y depende en gran medida del volumen, la forma, el espesor y la
composición de las nubes. La información de la nube a gran escala está disponible desde varios
satélites, pero dichos datos se proporcionan en una resolución baja y pueden contener errores.
Por ejemplo, las nubes pequeñas a menudo se pasan por alto debido al campo de visión limitado
del radiómetro. Las nubes y la superficie bajas o delgadas se confunden con frecuencia debido
a su brillo y temperatura similares (Ricciardelli et al., 2008; Dybbroe et al., 2005). Además, la
radiación solar que llega al suelo con respecto al tipo de nube no se puede determinar, aunque
esto es esencial para los estudios de radiación en la nube.
Hoy en día, los dispositivos de imágenes terrestres se usan comúnmente para respaldar estudios
satelitales (Cazorla et al., 2008; Feister y Shields, 2005; Sakellariou et al., 1995).
Uno de los fabricantes comerciales más conocidos de dichos instrumentos es el Instituto de
Oceanografía Scripps de la Universidad de California en San Diego. Sus "imagines de todo el
cielo" están construidos para medir la luminosidad del cielo en diversas bandas de longitud de
onda (espectro visible e infrarrojo cercano) en todo el hemisferio (Shields et al., 1998, 2003).
Debido a los componentes de alta calidad involucrados, estas imágenes suelen ser demasiado
caras para pequeños grupos de investigación. Por lo tanto, como una alternativa rentable,
algunas instituciones de investigación en varios países han desarrollado cámaras aéreas no
comerciales para sus propios requisitos (Pages et al., 2002; Seiz et al., 2002; Pfister et al., 2003;
Souza -Echer et al., 2006; Kalisch y Macke, 2008). En la mayoría de los casos, se utiliza un objetivo
de ojo de pez que mira hacia arriba para visualizar todo el cielo con un campo de visión (FOV)
de aproximadamente 180◦.
Se han extraído numerosas características y se han utilizado para distinguir cinco condiciones de
cielo diferentes, pero los autores reconocen sus resultados como modestos. Otro artículo
reciente (Calbo y Sabburg, 2008) presenta algunos criterios posibles para que las imágenes del
cielo clasifiquen ocho condiciones del cielo predefinidas. Esas características incluyen
características estadísticas, características basadas en la transformada de Fourier y
características que necesitan la distinción previa entre píxeles claros y nublados. Sin embargo,
el clasificador se basa en un método de clasificación muy simple y alcanza una precisión de solo
el 62%. Otras publicaciones tratan problemas más simples, como la estimación de la altura de la
base de la nube o la identificación de nubosidad fina y gruesa (p. Ej., Seiz et al., 2002; Kassianov
et al., 2005; Long et al., 2006; Cazorla et al., 2008 ; Parisi et al., 2008). Parisi et al. (2008) en
particular informan que no pudieron clasificar el tipo de nube.
2 Datos
2.1 Cámara
Las imágenes utilizadas para desarrollar el algoritmo han sido obtenidas por una de las dos
cámaras en la nube construidas para permitir observaciones de cielo continuo rentables para
investigaciones asociadas con la transferencia radiativa en el Instituto de Ciencias Marinas de
Leibniz en la Universidad de Kiel (IFM-GEOMAR).
2.2 Imágenes
Para el desarrollo del algoritmo de clasificación de tipo de nube, se utilizan imágenes con una
resolución de 2272 × 1704 píxeles capturadas durante un tránsito del buque de investigación
alemán "Polarstern" de Alemania a Sudáfrica en otoño de 2007 (ANT XXIV / 1) ( Schiel, 2009). En
el curso de esta expedición, se cruzaron diferentes zonas climáticas en varias estaciones y, por
lo tanto, los datos adquiridos cubren una amplia gama de posibles condiciones del cielo y
ángulos cenitales solares.
3 Algoritmo
En esta sección, se presentan las clases de nubes individuales, seguido de una introducción a la
metodología del clasificador aplicada, el clasificador kNN. Luego describimos el
preprocesamiento de los datos del generador de imágenes y explicamos las características
integradas, así como el método de selección de características.
Tabla 1. Clases a distinguir:
Además, fusionamos los géneros cirros y cirrostratos debido a la falta de datos disponibles que
muestran estos últimos, así como la dificultad para detectar nubes muy delgadas, como algunos
tipos de cirrosestatos. Además, debe tenerse en cuenta que la clase de cielo despejado incluye
no solo imágenes sin nubes, sino también imágenes con nubes por debajo del 10%.
A pesar de estas generalizaciones, las clases resultantes (ver Tabla 1) representan una partición
adecuada de las posibles condiciones del cielo y son especialmente útiles para estudios de
radiación. Para simplificar la aplicación de las clases en la nube, cada una está etiquetada con
un número de identificación individual (consulte también la Tabla 1).
3.2 clasificador
Clasificar las imágenes descritas en la sec. 2, se elige el método "k-el más cercano" (kNN), que
forma parte de los clasificadores supervisados no paramétricos (Duda y Hart, 2001).
"Supervisado" significa que las clases de separación son conocidas y se utiliza una muestra de
entrenamiento para entrenar al clasificador. Los clasificadores no paramétricos en general no
asumen una distribución de probabilidad a priori. Comparado con otros clasificadores, el
método kNN es muy simple (y, por lo tanto, está asociado con bajos costos de computación) y,
al mismo tiempo, bastante poderoso (Serpico et al., 1996; Vincent y Bengio, 2001; Duda y Hart,
2001). Incluso en el campo específico del reconocimiento del tipo de nube, existen algunos
resultados para la comparación con clasificadores lineales y redes neuronales, lo que subraya el
alto rendimiento de los clasificadores kNN (Singh y Glennen, 2005; Christodoulou et al., 2003).
clasificador kNN. La asignación de una imagen a una clase específica utilizando clasificadores
kNN se realiza por mayoría de votos.
La clase asociada con la mayoría de las k coincidencias más cercanas determina la clase
desconocida. En el caso de que esta mayoría no sea única, la fecha de entrenamiento con la
distancia más pequeña absoluta a la imagen desconocida especifica la clase objetivo. Por lo
tanto, la composición de la muestra de entrenamiento y una selección meticulosa de imágenes
adecuadas es de gran importancia.
Como los métodos kNN almacenan un conjunto de prototipos en la memoria una vez, la
complejidad del espacio de dicho algoritmo también es O (nd).
3.3 Pre-procesamiento
Para obtener características adecuadas para separar las clases definidas, es necesario eliminar
algunas áreas de las imágenes sin procesar analizadas, ya que tienen forma rectangular, pero la
parte interesante, el cielo mapeado, es circular. Debido a la ubicación variada de las cámaras,
los factores perturbadores como las superestructuras de los barcos o los edificios elevados
también pueden incluirse en la imagen y deben excluirse de otros cálculos.
Además, los análisis mostraron que es útil segmentar las imágenes en áreas claras y nubladas
antes de calcular las características.
Por lo tanto, primero se utiliza una máscara de imagen, construida identificando visualmente las
regiones de imagen que contienen información de confusión. La máscara adapta las secciones
detectadas, así como los píxeles completamente blancos (como los que muestran el sol) al fondo
mediante el establecimiento de todos los valores de píxeles correspondientes a cero. Luego, el
área restante se divide píxel por píxel en regiones claras y nubladas, utilizando sus valores de
píxel rojo y azul.
En una atmósfera clara (sin aerosoles), las moléculas de gas dispersan más luz azul que roja, por
lo que el cielo claro se ve azul a nuestros ojos. En contraste, las nubes (que contienen partículas
como aerosoles, gotas de agua y / o cristales de hielo) dispersan la luz azul y roja en un grado
similar, lo que hace que aparezcan de color blanco o gris (Petty, 2006). Por lo tanto, las regiones
de imágenes con cielo despejado muestran valores de píxeles rojos relativamente más bajos en
comparación con las regiones que muestran nubes, y la relación R / B puede usarse para
diferenciar estas áreas. Se debe determinar un umbral de separación, cuyo valor exacto depende
tanto de la cámara utilizada como de las condiciones atmosféricas prevalecientes. Los valores
adecuados se discuten en varios artículos que manejan la estimación de la cobertura de nubes
(por ejemplo, Pfister et al., 2003; Long et al., 2006).
Sin embargo, durante la fase de prueba, notamos problemas al detectar nubes gruesas y al
mismo tiempo clasificar los píxeles circumsolares. Por lo tanto, modificamos el criterio y
consideramos la diferencia R − B en lugar de la relación R / B. Las comparaciones demostraron
que la segmentación que utiliza un umbral de diferencia de este tipo todavía produce errores
menores, pero supera el método de relación. Para nuestra aplicación, el valor R − B = 30 es
óptimo (ver Fig. 2).
3.4 Características utilizadas
De las numerosas características probadas (por ejemplo, las características que describen el
borde o el color, las características considerando la longitud de ejecución de las primitivas, su
cantidad o frecuencia, o las características que describen la textura de una imagen),
seleccionamos 12 funciones para la aplicación (ver más abajo). La elección de estas
características se basa en sus Distancias Fisher Fx ij, un criterio de selección utilizado en el
trabajo de clasificación de nubes relacionado con imágenes satelitales (Pankiewicz, 1995).
Se define como donde μxi y μxj son la media de la característica x con respecto a la clase i y j,
(sigma) xi y (sigma) xj las desviaciones estándar correspondientes.
Las características más adecuadas para separar las clases definidas son aquellas que tienen las
distancias de Fxij más grandes de Fisher.
Cabe señalar, sin embargo, que el conjunto de características elegido de esta manera debe
garantizar la separación de todas las clases. Eso significa que las características con distancias de
Fisher más pequeñas también deben incluirse en el conjunto final, si discriminan las clases que
no están separadas por otras características con distancias más altas.
La mayoría de las funciones se basan en imágenes en escala de grises. Dado que los datos
originales se proporcionan en color, se debe realizar una partición en los tres componentes R, G
y B antes de poder calcular las características. Una transformación simple proporciona las
imágenes en escala de grises, que contienen solo la información de color de un canal (R, G o B).
Las características espectrales como las de arriba admiten una división de clases en la nube, pero
considerarlas no es suficiente.
No proporcionan información sobre la distribución espacial del color en una imagen. Sin
embargo, en la mayoría de los problemas de reconocimiento de patrones y particularmente en
el reconocimiento del tipo de nube, esta distribución es igualmente significativa. Por ejemplo,
las imágenes que muestran nubes cúmulos y otras que muestran nubes altocúmulos o
estratocúmulos tienen valores de color medios similares y no se pueden separar con esas
características. Por otro lado, su distribución espacial del color es bastante diferente, y se
pueden agregar otros tipos de características para separar esos casos.
Rasgos texturales. Para describir la textura de una imagen, se pueden usar medidas estadísticas
calculadas a partir de matrices de coexistencia de nivel de grises (GLCM). Un GLCM es una matriz
cuadrada para la cual el número de filas es igual al número de niveles de gris en la imagen
considerada. Cada elemento de la matriz representa la frecuencia relativa P-D(a, b) en la que
aparecen dos píxeles, separados en una dirección definida por una distancia de píxeles D = (Dx,
Dy), uno con valor gris a y otro con valor gris b. Para evitar la dependencia de la orientación de
la imagen, a menudo una matriz promedio se calcula a partir de dos o cuatro matrices, que
expresan direcciones mutuamente perpendiculares. Además, debido a que el cálculo de GLCM
aumenta considerablemente con el aumento del número de niveles de intensidad G, es
ventajoso reducir el número original (G = 256) de los niveles de gris.Las características de la
textura utilizadas en este estudio son las siguientes cuatro de las 14 medidas estadísticas
propuestas por Haralick et al. (1973), calculado a partir de un GLCM promedio con una distancia
de píxeles D = (1,1):
Tabla 2. Matriz de confusión de CV para las características igualmente involucradas en %.
- Cubierto de nubes
CC es una medida de la nubosidad promedio, y por ejemplo, las nubes estratiformes podrían
distinguirse bien de otras condiciones del cielo utilizando esta función.
4. Resultados y discusión
En esta sección, describimos la metodología utilizada para estimar el rendimiento del algoritmo
creado, así como para optimizar los parámetros incluidos y los resultados respectivos.
Posteriormente, se presenta una muestra de prueba adicional de imágenes aleatorias para
evaluar el rendimiento del algoritmo en la clasificación de imágenes más ambiguas.
El algoritmo se implementó en IDL y se probó en un Intel Celeron 530 con 1.73 GHz y 512 MB de
RAM. Para una imagen, se necesitaron aproximadamente 1,3 s para devolver el resultado de la
clasificación.
Primeros resultados Los resultados del primer LOOCV realizado se dan en la Tabla 2. Todas las
características estuvieron involucradas por igual en el proceso de clasificación y el parámetro k,
el número de vecinos considerados (ver Sección 3.2), se estableció en 3 como primera
estimación. Vemos una precisión general de alrededor del 96%, donde la clase clara muestra los
mejores resultados de clasificación con 98.8%.
Las confusiones de esta clase existen principalmente con nubes cirros y también raramente con
nubes cúmulos en caso de poca nubosidad.
Esto es causado por partes delgadas y transparentes de las nubes cirros que no pueden ser
detectadas por el algoritmo. En consecuencia, tales imágenes se clasifican como cielo despejado.
Además, el llamado "efecto de blanqueo" proporciona una clasificación errónea de píxeles libres
de nubes cerca del disco solar. Dichos píxeles son a menudo más blancos y brillantes que el resto
del hemisferio debido a la dispersión hacia delante por aerosoles y neblina (ver Fig. 3, izquierda)
y, por lo tanto, son interpretados como nubes delgadas por el algoritmo (ver también Long y
otros, 2006).
Estas confusiones, sin embargo, son bien entendidas. Las tres clases ocurren frecuentemente
como formas de transición de una en la otra y la clasificación automática de tales imágenes
podría diferir de la preclasificación manual.
También, las clasificaciones erróneas de algunas imágenes que muestran estratos y nubes
gruesas parecen ser causadas por gotas de lluvia en la cámara que protege el domo (ver Fig. 3,
derecha). Naturalmente, las gotas también se mapean en las imágenes y conducen a valores de
características de textura similares a los que representan altocúmulos y cirrocúmulos
irregulares.
Aparte de estos errores, los primeros resultados, basados en la suposición de utilizar 3 vecinos
más cercanos, son bastante buenos. Sin embargo, queríamos ver si el rendimiento del algoritmo
podría mejorarse utilizando otro valor de k o ponderando las características individuales.
Resultados mejorados. Para el LOOCV discutido anteriormente, todas las características fueron
ponderadas por igual. Para evaluar si se pueden lograr mejoras variando el impacto de las
características individuales, agregamos un vector de peso y ejecutamos el LOOCV para
diferentes configuraciones de este vector. Además, dado que k, el número de vecinos
considerados, es un parámetro variable, la LOOCV también se ha llevado a cabo para diferentes
valores de k.
La Tabla 3 presenta precisiones generales para k = 3 y k = 5 usando los vectores de peso wy,
definidos por i E {1,...,12}.
Table 4. Confusion matrix of CV for optimal weighted features in %. (Matriz de confusión de CV para características
ponderadas óptimas en%.)
Imagen que muestra cirros y cúmulos (04 de noviembre de 2007, 09:39 UTC) (izquierda), imagen
que muestra un cielo despejado durante un evento de polvo (08 de noviembre de 2007, 13:40
UTC) (derecha).
En otras palabras, la característica y está ponderada x veces, mientras que las otras se ponderan
una vez. Como puede verse en la Tabla 3, k = 3 supera a k = 5 para todos los pesos. Además, las
características ponderadas parecen tener cierto potencial para mejorar la tasa de clasificación.
El mejor rendimiento en nuestros análisis se realizó con el siguiente peso: EN, ENT, CON, MER,
MEB, DRG, SD, SK y CC se califican una vez, HOM y DRB se ponderan dos veces y DGB se cuenta
tres veces, lo que indica que La distinción entre las clases de nubes definidas en este estudio es
más factible utilizando la homogeneidad del cielo y el color del cielo. Los análisis también
mostraron que los valores de k> 3, en general, producen un rendimiento que disminuye
continuamente.
Por lo tanto, nuestra primera suposición, el valor k = 3, se confirmó como la mejor opción.
Además de la evaluación utilizando el LOOCV, probamos el algoritmo con una muestra de datos
aleatorios adicionales, llamada TEST, para señalar los problemas que surgen al clasificar
imágenes que no necesariamente muestran una clase de nube única o que contienen
interferencias como el polvo (ver Fig. 4) .
De los datos obtenidos a bordo de “Polarstern” durante ANT XXIV / 1 (ver Sección 2.2), se
seleccionó al azar un conjunto de 275 imágenes, que cubren todas las clases de nubes como se
define en la Tabla 1.
Clasificamos manualmente cada uno de ellos en una categoría de nube única, incluso si la
asignación era discutible. En consecuencia, las diferencias en los resultados de clasificación del
algoritmo en comparación con este manual "clasificación de referencia" son inevitables y debe
aceptarse un cierto sesgo.
Tabla 5. Matriz de confusión de la muestra aleatoria TEST (275 imágenes) en% y absoluto.
Tabla 6. Matriz de confusión de la muestra aleatoria TEST (275 imágenes) para errores graves
en% y absoluto.
Resultados La tabla 5 muestra las tasas de aciertos correspondientes. En comparación con las
precisiones logradas por la LOOCV, observamos una disminución de la tasa de clasificación
promedio de 97.06% a 74.58%, donde la tasa de la clase estratocúmulo es decisiva.
Si consideramos el siguiente paso solo los errores “serios” en lo que respecta a los análisis de
radiación, lo que significa que las confusiones además consideradas como errores de
clasificación son las de nubes que difieren significativamente en su impacto sobre la radiación
(por ejemplo, cirros y estratonubes), obtenemos otro resultado. Las tasas de aciertos
correspondientes se constituyen en la Tabla 6, en la que también se excluyen las
interpretaciones erróneas de nubes cúmulos como nubes gruesas y las de cúmulos altos como
cirros, ya que las imágenes involucradas son casos marginales y una asignación a ambas clases
de nubes es aceptable. Aquí, el TEST de muestra aleatoria arroja una tasa de clasificación global
del 87,52%. La parte principal de las clasificaciones erróneas restantes son confusiones entre
cúmulos, cirros y cielo despejado. Verificando nuevamente las imágenes correspondientes
muestra que, sin excepción, cada una de ellas muestra menos del 30% de nubosidad, lo que
indica que esta puede ser la fuente de error.
Otras pocas confusiones ocurren entre imágenes que muestran cúmulos altos, estratos o nubes
gruesas. Una vez más, las imágenes respectivas son casos marginales y cada una de estas
asignaciones es aceptable.
5 Resumen y conclusiones
En este estudio, presentamos un método automático para clasificar imágenes digitales simples
en clases de nubes similares a los géneros de ICCS. Hemos demostrado que la distinción de estos
géneros es posible utilizando solo características estadísticas de primer y segundo orden, al
menos en combinación con conocimiento de la nubosidad real.
Considerando imágenes obviamente asignables, las clases mejor reconocidas por el algoritmo
kNN son cielo despejado y cirros.
Un enfoque ya probado en el proceso de nuestro estudio para evitar este error causado por la
mala interpretación de los píxeles cerca del sol es la determinación de la posición del disco solar
y su eliminación. Esto se puede lograr mediante el uso de características geométricas, el
conocimiento del tiempo y la ubicación cuando se toma la imagen o la inspección de las series
de tiempo (Si una "nube" no se mueve, es probable que esta "nube" sea el área alrededor del
sol visible). En caso de que el disco solar se muestre en una imagen, los píxeles alrededor podrían
excluirse geométricamente de otros cálculos o mediante el uso de una retención adicional.
Otro error notable, la confusión entre cirros y cúmulos, ocurre principalmente en el caso de que
la nubosidad sea inferior al 30%. Es concebible que aquí un proceso de clasificación jerárquica
pueda llevar a mejoras.
Después de una primera división según la nubosidad, la asignación adicional a una clase de nube,
especialmente a una de estas clases, podría ser más evidente.
Las clases restantes se reconocen bastante bien. Existen algunas confusiones más entre el
cúmulo y el cúmulo alto debido a su similitud en el color y la transición suave en la definición.
También se producen confusiones entre las últimas tres clases, estratocúmulos, estratos y nubes
gruesas. La razón es el cambio frecuente de una clase a otra, un fenómeno natural que siempre
conducirá a algunas clasificaciones erróneas de estas clases utilizando métodos automáticos.
Otro problema, no visible en los resultados de LOOCV, pero que ocurre en el análisis de datos
aleatorios, es la asignación de clase incorrecta debido a la aparición simultánea de más de una
clase de nube predefinida. En la naturaleza, el cielo a menudo proporciona un amplio espectro
de diferentes tipos de nubes al mismo tiempo, por ejemplo. cirrostratos y estratocúmulos o
cirros y cúmulos frecuentemente ocurren juntos. Para evitar errores de clasificación debido a
este fenómeno, sugerimos una partición inicial de las imágenes en subimágenes más pequeñas
y su clasificación por separado. Sin embargo, es importante verificar si estas subimágenes aún
incluyen suficiente información para asignar las partes de la imagen a una clase de nube.
Estamos convencidos de que mediante el uso de las sugerencias explicadas anteriormente y, por
lo tanto, una eliminación de los errores causados por imágenes cuestionables, es posible una
mejora del algoritmo.