You are on page 1of 10

PARALELISMO FUNCIONAL EN EL WRF

Rodrigo Baya , Claudio Porrinib , Martn Pedemontea y Pablo Ezzattia


a Instituto de la Computacin,Universidad de la Repblica, Montevideo, Uruguay.
b Instituto de Mecnica de los Fluidos e Ingenieria Ambiental,Universidad de la Repblica, Montevideo,
Uruguay.

Palabras Clave: WRF, HPC, Paralelismo funcional.

Resumen. En la ltima dcada, Uruguay ha comenzado a migrar su matriz energtica hacia energas
renovables de origen elico y solar. Debido a que es difcil prever el comportamiento de los fenme-
nos atmosfricos asociados a dichas fuentes de generacion de energa, desde la Facultad de Ingeniera
se estn desarrollando herramientas que permitan predecir la generacin de la energa asociada en una
ventana de corto plazo. Sin embargo, estas herramientas presentan tiempos de ejecucin elevados, espe-
cficamente en lo que respecta al clculo del mdelo regional de tiempo y clima WRF. En este trabajo
se propone una arquitectura asincrnica del modelo WRF, buscando disminuir los tiempos de clculo de
la radiacin solar. Esta novel propuesta alcanza una aceleracin de 1.2 veces cuando se compara con la
mejor configuracin del WRF original, utilizando los mismos recursos de hardware para ambos casos.
1. INTRODUCCIN
Uruguay se encuentra en un proceso vertiginoso de modificacin de su matriz de genera-
cin de energa elctrica. En particular, en la ltima dcada se ha dado un importante impulso
a la generacin de energa elica y de origen solar. Alineado con esta poltica, investigadores
del Instituto de Mecnica de los Fluidos e Ingeniera Ambiental (IMFIA) de la Facultad de In-
geniera (FING) de la Universidad de la Repblica (UDELAR) desarrollaron una herramienta
para la prediccin de la generacin de energa elctrica de origen elico en el territorio Uru-
guayo. La herramienta se basa en la ejecucin de un modelo numrico de circulacin regional
de la atmsfera y su post-procesamiento estadstico, as como en la asimilacin en tiempo real
de la potencia generada por los parques elicos en la ltima hora y produce, como salida, un
estimativo de la potencia generada por los mismos. Para modelo de pronstico del tiempo, la
etapa ms costosa en recursos de cmputo, se usa el Weather Research and Forecasting (WRF)
(Skamarock et al., 2001), uno de los modelos numricos ms populares a nivel mundial para
dicho fin. Desde el ao 2014, los planes de desarrollo se han focalizado en la generacin de
energa de origen solar fotovoltaica. En concordancia con el esfuerzo anterior, se ha comenzado
a desarrollar una herramienta de prediccin de la generacin de energa solar fotovoltaica sobre
el territorio del pas. El proyecto rene investigadores del IMFIA, del Insituto de Computacin
(INCO) y del Instituto de Ingeniera Electrica (IIE) de la FING. Esta herramienta tambin se
basa en el WRF, pero buscando potenciar los clculos referidos a la radiacin solar para mejo-
rar la precisin de dicha estimacin. En resumen, ambas herramientas demandan importantes
volmenes de clculos, lo que motiva estudiar la aceleracin del WRF para disminuir su tiempo
de ejecucin (y/o mejorar la precisin numrica de los resultados).
Por otro lado, en los ltimos aos el rea de computacin de alto desempeo (HPC, del ingls
High Performance Computing), ha cambiado radicalmente. Adems de las grandes plataformas
de hardware reservadas para centros de cmputo con acceso a grandes fuentes de financiamien-
to, ha cobrado impulso el uso de plataformas de hardware de bajo costo. En especial, aquellas
que incluyen procesadores multi-core y aceleradores de hardware (como las GPUs y los pro-
cesadores Intel Xeon-Phi). Este tipo de hardware ofrece capacidades de cmputo importantes
con costos econmicos y niveles de consumo energticos razonables (Padoin et al., 2013). Pe-
ro, como contrapartida, estas plataformas que son especialmente aptas para el paralelismo de
datos, exigen enfoques donde se puedan abatir, o al menos acotar de manera importante, las
dependencias entre datos. Si bien el WRF incluye el uso de tcnicas de paralelismo mediante
la aplicacin de la API OpenMP, evaluaciones preliminares realizada sobre los casos de estudio
de inters mostraron que la herramienta ofrece una escalabilidad pobre en este tipo de escena-
rios. Esta situacin limita fuertemente el aprovechamiento de equipos con nmeros elevados de
cores y/o arquitecturas masivamente paralelas.
Considerando lo expuesto en los prrafos anteriores, nuestra propuesta se centra en el desa-
rrollo de una variante del WRF capaz de ejecutar mdulos de forma concurrente. Logrando as,
sacar partido del paralelismo de datos y de tareas al mismo tiempo. En particular, se desarroll
un prototipo que permite desacoplar los clculos de radiacin del modelo siguiendo un paradig-
ma de pipeline, dnde en un paso de tiempo se estn calculando los cmputos del modelo en
general y al mismo tiempo el mdulo de radiacin, cuya salida ser entrada en pasos futuros del
modelo general. Los resultados preliminares alcanzados muestran reducciones en los tiempos
de ejecucin de alrededor de un 20 % utilizando los mismos recursos de hardware.
El resto del documento se estructura de la siguiente forma. En la Seccin 2 se describe
someramente la herramienta para predecir la generacin de energa solar fotovoltaica, prestando
especial atencin en el modelo WRF. Luego, en la Seccin 3 se presenta la propuesta, seguida
de la evaluacin experimental de la misma en la Seccin 4. Finalmente, en la Seccin 5, se
ofrece un resumen de las principales conclusiones arribadas durante el trabajo y posibles lneas
de trabajo futuro.

2. PREDICCIN DE GENERACIN DE ENERGA SOLAR FOTOVOLTAICA


La herramienta de prediccin de la generacin de energa de origen solar fotovoltaico desa-
rrollada incluye diferentes componentes, como se resumen en la Figura 1. En la primera etapa,
se toman los datos del modelo global de circulacin de la atmsfera, Global Forecast System
(GFS) (con una resolucin de 0.5 o 0.5 o ) y estos son utilizado para establecer las condiciones
de borde e iniciales del modelo regional WRF (Numerical Weather Prediction, NWP). Luego,
basado en estos datos, se ejecuta el WRF utilizando diferentes esquemas de parametrizacin.
En la tercera etapa, se aplica un Model Output Statistics MOS (MOS1 en la Figura 1) para
corregir la radiacin solar horizontal. Posteriormente, la radiacin es proyectada segn la incli-
nacin de los paneles fotovoltaicos, utilizando la informacin de plano de inclinacin definida
en cada planta. En la ltima etapa, se aplica un segundo MOS (MOS2 en la Figura 1), que con-
siste en aplicar una regresin lineal utilizando datos especficos de cada planta solar (como por
ejemplo, ndice de claridad, ajuste territorial, etc.) de forma de estimar finalmente la produccin
de energa de la planta fotovoltaica.

Figura 1: Mdulos de la herramienta de prediccin de la generacin de energa de origen solar fotovoltaico pro-
puesta.

Si se analiza esta herramienta desde el punto de vista del costo computacional, la mayor parte
del tiempo de ejecucin necesario para realizar la estimacin de la planta es consumido por el
modelo numrico de pronstico del tiempo, el WRF. En particular, como se est estudiando
el fenmeno de radiacin, se utilizan mdulos que permitan calcular esta propiedad de forma
precisa. Cuando se analiza el funcionamiento del WRF en lo que respecta al clculo de la
radiacin (y como se ver en profundidad ms adelante), el modelo computa la radiacin y
utiliza estos valores por un lapso de tiempo posterior, configurable segn una variable inicial.
Si bien esta caracterstica busca espaciar el clculo de la radiacin y as disminuir el tiempo
de clculo asociado, al momento de actualizar estos datos, el modelo debe detenerse y realizar
los clculos del pronstico de la radiacin nuevamente para el siguiente lapso temporal. La
necesidad de una buena frecuencia de clculo para este caso y el uso de un mdulo de alta
precisin para el clculo de la radiacin, inciden en que el WRF sea la etapa ms costosa de la
herramienta.
Considerando lo expresado anteriormente, nuestro esfuerzo se centra en modificar el paradig-
ma de cmputo del WRF, por esta razn en el siguiente apartado se profundiza en la descripcin
del modelo.
2.1. El WRF
El programa WRF Michalakes et al. (2001) fue creado a principios de la dcada de los 90 por
distintos centros de estudio relacionados a la investigacin de los fenmenos de la atmsfera,
principalmente ubicados en Amrica del Norte. El WRF es un modelo numrico mesoescala, no
hidrosttico, euleriano y compresible, que permite predecir el clima orientado tanto al mbito
de la investigacin atmosfrica como al pronstico del tiempo diario. Esta herramienta, permite
pronosticar diversas propiedades fsicas y qumicas de la atmsfera, como el movimiento de
masas de aire, humedad, formacin de nubes y radiacin emitida hacia y desde la superficie
terrestre, entre otras.
Desde el punto de vista computacional, el WRF es un programa estructurado en capas y
mdulos, donde cada mdulo presenta un solver de alguna propiedad qumica o fsica de la at-
msfera. Para cada una de estas propiedades existen distintos mdulos, donde vara la precisin
del clculo y en consecuencia el tiempo de ejecucin del mismo. Para lograr la correcta simula-
cin de la atmsfera, estos mdulos son llamados por capas superiores del programa, siguiendo
un orden en particular, debido a que la informacin de ciertas propiedades atmosfricas son
utilizadas para los clculos de otras. En particular, la radiacin es una propiedad importante en
el modelo y es utilizada por diversos mdulos.

Figura 2: Funcionamiento de la arquitectura sincrnica del modelo WRF, cuando se lo divide segn la porcin de
cdigo que ejecuta la radiacin y el resto de los mdulos.

En la Figura 2, se muestra el comportamiento presente entre el mdulo de la radiacin y el


resto de los clculos del modelo, observndose dos caractersticas interesantes. La primera es,
como se dijo anteriormente, que la radiacin no se ejecuta en todos los pasos de simulacin,
sino que se calcula segn una frecuencia determinada por una variable inicial. Esta variable le
indica al cdigo cada cuanto se ejecuta este mdulo y a su vez cuanto tiempo se reutiliza el
dato calculado. Este parmetro de configuracin le permite al modelo definir la precisin de
las variables relacionadas a la radiacin independientemente del modelo que se ejecut para
su clculo. Lo segundo a observar, es que para actualizar los datos de la radiacin, el modelo
se detiene y ejecuta nicamente el mdulo asociado a este fenmeno. Esto implica que los
tiempos del modelo se ven fuertemente afectados por el tiempo que implican dichos clculos, y
ms an si se quiere que el modelo realice un clculo preciso de esta propiedad.
En busca de disminuir los tiempos de ejecucin, el modelo incluye estrategias de compu-
tacin de alto desempeo, en particular permite emplear el paradigma Single Program Multiple
Data (SPMD), es decir que el mismo programa computa en paralelo diferentes secciones de los
datos (Foster, 1995). Sobre esta tcnica, el modelo ofrece implementaciones con herramientas
de memoria distribuida utilizando el estndar MPI (Snir, 1998; Gabriel et al., 2004) y memo-
ria compartida utilizando la API OpenMP (Quinn, 2003). Especficamente, el WRF procede
primero dividiendo los datos de entrada (el dominio de simulacin) en sub-dominios (tantos
como unidades de cmputo se especifiquen), para luego, ejecutar los cmputos de prediccin
sobre cada uno de los subdominios por separado. A pesar de este esfuerzo, cuando se requiere
ejecutar la simulacin sobre un dominio de dimensiones reducidas, como los dominios utiliza-
dos para las ejecuciones dentro del territorio Uruguayo, el paradigma se encuentra rpidamente
limitado y resulta en que la herramienta no alcance altos niveles de eficiencia (Silva et al.,
2014; Michalakes y Vachharajani, 2008; Skamarock et al., 2005). En la Seccin 4 se estudia
experimentalmente este comportamiento.
Otra herramienta que ofrece el WRF para reducir los tiempos de ejecucin del modelo es el
uso de dominios encajados. Esto permite realizar simulaciones de forma concurrente de varias
grillas, que se contienen una dentro de la otra. De esta forma, el modelo permite aplicar los
clculos de una grilla como condicin de frontera de otra, de forma de mejorar los clculos de
aquellas que son ms interiores y poseen mayor precisin. En este esfuerzo no se considera el
uso de dominios encajados por lo cual no se profundiza en la tcnica.

3. PROPUESTA
Debido al alto costo computacional que el WRF presenta en las configuraciones necesarias
para obtener un buen pronstico de la radiacin solar, resulta de inters analizar la herramienta
e intentar introducir alguna tcnica que permita disminuir los costos asociados. En particular,
debido al pronunciado crecimiento de las arquitecturas multi-core y many-core en los ltimos
aos, es til introducir al modelo alguna tcnica de computacin de alto desempeo que permita
aprovechar el poder de cmputo que estas arquitecturas ofrecen.
Como se vio en la Seccin 2, el WRF presenta un sincronismo entre el clculo de la ra-
diacin y el resto de los clculos asociados al modelo general. Adems, tiene implementado
un paralelismo de datos utilizando OpenMP, que para los casos utilizados para Uruguay, no
ofrece buenos niveles de escalabilidad. Por esta razn, parece interesante abordar en este con-
texto una propuesta basada en cambiar la arquitectura de cmputo del modelo WRF por un
paradigma asincrnico, que no slo permita realizar el clculo en paralelo, sino que adems no
incurra en los problemas que surgen del paralelismo de datos ya presente en la herramienta.
Especficamente, como se muestra en la Figura 3, resulta interesante implementar una tcnica
de paralelismo funcional que permita desacoplar los clculos de la radiacin solar y el resto del
modelo, para poder ejecutar estos cmputos en forma solapada.

Este cambio en el modelo WRF permitir hacer un uso eficiente de plataformas de hardware
multi-core y many-core, an con dominios de dimensiones modestas (como las discretizaciones
usadas para representar nuestro pas en los modelos numricos implicados). En especial, el nue-
vo paradigma propuesto en este trabajo permite que el gestor de radiacin se compute al mismo
tiempo que otros mdulos, disminuyendo e incluso evitando las esperas por la actualizacin de
Figura 3: Funcionamiento de la arquitectura asincrnica del WRF.

los datos de este fenmeno.


Lo primero que se hizo fue desacoplar el cdigo del clculo de radiacin del resto del modelo,
que debido a la estructura en capas del modelo, no fue una tarea de alta dificultad. Luego, se
estudiaron las variables involucradas en el clculo de la radiacin y se las clasific de acuerdo
a si eran de entrada al mdulo o de salida de ste (o ambas). Posteriormente a esta etapa, se
pas a desarrollar el mdulo de comunicacin, una de las partes crticas para el funcionamiento
correcto y eficiente de esta propuesta. Para ello, este mdulo presenta dos buffers, uno dnde
se almacenan temporalmente los datos a ser procesados por el mdulo de radiacin y otro,
dnde se almacenan los datos de la ltima radiacin calculada. Estos buffers son de inters
para la implementacin, ya que permiten reducir al mximo los tiempos de sincronizacin, los
cuales se presentan solamente al momento de actualizar u obtener los datos. Por otro lado, este
mdulo presenta cuatro funciones, dos que le permiten a las partes actualizar los datos en los
buffers correspondientes y dos que le permiten a estas partes obtener los datos que necesitan
para continuar su ejecucin. Adems, el mdulo maneja variables de mutuo exclusin, que
sirven para avisar a ambas partes si pueden actualizar u obtener los datos pertinentes.
Una vez cubierta la separacin de las secciones de cdigo y la comunicacin entre dichas
partes, se pas a disear el uso de paralelismo mediante pipeline que es la tcnica elegida para
explotar el asincronismo. Como se discuti anteriormente, el modelo necesita los datos de la
radiacin actualizados cada cierto perodo de tiempo, por esta razn, el prototipo presentado
respeta este comportamiento, de forma de preservar la coherencia de datos original. Es decir,
la propuesta no modifica el paso fijo seleccionado en la variable inicial, ya que el estudio del
comportamiento de los valores de la radiacin en este caso, requiere indagar ms profundamente
el efecto en el solver de usar un paradigma completamente asincrnico. Para cumplir con esta
restriccin, se utilizaron dos variables de mutuo-exclusin, que permiten, en caso de que no est
el dato necesario, retrasar la ejecucin del modelo, de forma de no comprometer la precisin
y coherencia de los datos, pero asegurando el comportamiento asincrnico deseado. En otras
palabras, las variables en cuestin no permiten que los datos de la radiacin se desactualicen
ms all del intervalo que se indica como aceptable en las variables iniciales del modelo.
Es importante destacar, que la tcnica introducida no afecta el paralelismo de datos presente
en la herramienta, por lo que tanto el mdulo de radiacin desacoplado como el resto del modelo
mantienen el uso de dicha estrategia.
4. EVALUACIN EXPERIMENTAL
En esta seccin se resume la evaluacin experimental realizada sobre la propuesta. En este
sentido, se describen primero los casos de prueba considerados, luego la plataforma de hardware
empleada y, por ltimo, los resultados experimentales obtenidos propiamente dichos.

4.1. Casos de prueba


Para la evaluacin experimental se us como caso de estudio un dominio que comprende la
zona sur y sur-este de Uruguay, discretizado en 243.756 puntos (74 en el eje este-oeste, 61 en el
norte-sur y 54 en el vertical). Se utilizan como datos de entrada los registros ofrecidos por la Na-
tional Oceanic and Atmospheric Administration (NOAA) para el da 15/07/2012, haciendo una
simulacin total de 3 horas a partir de las 9 de la maana de esa fecha, con un paso temporal de
15 segundos. El caso usado es representativo, en cuanto a exigencias computacionales, del tipo
de simulacin realizada para la prediccin de la generacin de energa solar con la herramienta
desarrollada para el terriotorio nacional.

4.2. Plataforma de hardware


Las ejecuciones se realizaron sobre un equipo con un procesador AMD Opteron 6272 de 64
ncleos a 2.09GHz y con 48GB de RAM.
El sistema operativo es CentOS 6 y el compilador GNU C/FORTRAN v4.4.7. Como bande-
ras de optimizacin se utiliz -O3 y las banderas de empaquetado de estructuras en memoria
-frepack-arrays -fpack-derived.

4.3. Resultados experimentales


En primera instancia se estudi el desempeo computacional de la variante original del WRF
sobre el caso de estudio definido. El objetivo del estudio se centr en identificar la mejor con-
figuracin para la variante original y, al mismo tiempo, validar la premisa de la pobre escala-
bilidad del modelo. En este sentido la Tabla 1 presenta los tiempos de ejecucin, medidos en
segundos, que implica el WRF original al variar la cantidad de hilos utilizados, ademas de los
T iempoparalelo #hilos
valores de eficiencia ( T iempo sequencial
) conseguida. La Figura 4 presenta la misma informa-
cin previa en forma grfica. De los datos de la tabla1 se puede deducir que la configuracin que
requiere menor tiempo de ejecucin es utilizando 32 hilos. Adems, como se puede ver en las
grficas, el paralelismo de datos disponible en la herramienta (para el caso abordado) no ofrece
una escalabilidad buena. Notar que no slo el menor tiempo de ejecucin es con 32 hilos sino
que la eficiencia decrese fuertemente al aumentar la cantidad de hilos.
1
Notar que si bien, por cuestin de espacio, en la tabla se resumen los tiempos de ejecucin para cantidad
de hilos mltiplo de 8, la evaluacin se realiz para todas las cantidades mltiplo de 2 (como se presenta en la
Figura 4) y los tiempos al utilizar 30 y 34 hilos fue superior a utilizar 32.
8000 1

0.8
6000

0.6

4000

0.4

2000
0.2

0 0
0 10 20 30 40 50 60 70 0 10 20 30 40 50 60 70

Figura 4: A la izquierda, progresin de los tiempos de ejecucin (en segundos). A la derecha progresin de la
eficiencia del modelo WRF en su versin original al cambiar la cantidad de hilos.

# Hilos Tiempo (s) Eficiencia


1 7738 -
2 4331 0.89
4 2352 0.82
8 1378 0.70
16 921 0.53
24 812 0.40
32 670 0.36
40 779 0.25
48 773 0.21
56 740 0.19
64 714 0.17
Tabla 1: Tiempos de ejecucin (en segundos) y eficiencia del modelo WRF en su versin original.

Los resultados obtenidos, en lo que respecta al desempeo computacional, por la variante


propuesta se resumen en la Tabla 2. La tabla incluye la configuracin de la propuesta, es decir
la cantidad de hilos para el modelo en general y del mdulo de radiacin, que implic menores
tiempos de ejecucin. Adems es importante destacar que se configur la propuesta para que
realice una cantidad de clculos de radiacin comparable con la cantidad que realiza la variante
orginal.

Versin # Hilos Tiempo (s) Aceleracin


Original 32 670 -
Propuesta 30+30 564 1.19x
Tabla 2: Tiempos de ejecucin (en segundos) de la mejor configuracin del modelo original y de la propuesta
asincrnica.

Si se considera la mejor configuracin para cada versin, o sea la que minimiza el tiempo de
ejecucin del modelo, que en este caso son la de 32 hilos para el caso original (670s) y para la
variante propuesta 30 hilos para el ncleo del WRF y 30 hilos para el clculo de la radiacin
(564s), los resultados muestran una mejora del orden de 1.2. Estos resultados, conseguidos
utilizando la misma plataforma de hardware, permiten afirmar que el clculo asincrnico de la
radiacin logra aprovechar de mejor manera los recursos de clculo de la plataforma.
Finalmente, es importante mencionar que para todas las ejecuciones de la nueva arquitectura,
los resultados numricos obtenidos se asemejan a los que arroja el modelo original. En particu-
lar, los resultados obtenidos en esta propuesta no presentan variaciones significativas a su par
en el modelo original cuando se realizan la misma cantidad de pasos de radiacin.

5. CONCLUSIONES Y TRABAJO FUTURO


En el trabajo se presenta una primera aproximacin al desarrollo de una variante asincrnica
del WRF. Este esfuerzo se centr en modificar el paradigma de clculo de los mdulos de
radiacin, permitiendo obtener un prototipo que computa de manera solapada los mdulos de
radiacin con los mdulos de cmputo del modelo general. La propuesta realizada permite
utilizar paralelismo de datos en cada una de las secciones del modelo, mdulos de radiacin y
modelo general, y a su vez paralelismo funcional entre las secciones al explotar la tcnica de
pipeline.
Los resultados obtenidos, si bien son preliminares, permiten vislumbrar que esta estrategia
permitir explotar de manera ms eficiente las plataformas de hardware masivamente paralelas.
Es conveniente sealar que se alcanzaron mejoras del entorno de un 20 % al utilizar la variante
propuesta sobre una misma plataforma de hardware.
El desarrollo del trabajo no permiti dar una respuesta completa a varios desafos y, adems,
se detectaron varias lneas potenciales para extender la propuesta. Algunos de estos desafos
estn siendo abordados actualmente y otros se espera estudiarlos en trabajos futuros. Las lneas
principales de trabajo son:
Modificar la restriccin de paso de tiempo fijo, esto permitira mejorar los tiempos de
ejecucin al solapar en forma menos restringida.
Abordar la aplicacin de tcnicas de dominios encajados.
Evaluar el uso de plataformas de hardware hbridas, por ejemplo equipos que incluyan
tarjetas grficas (GPUs).
Estudiar el impacto de la variente propuesta en el consumo elctrico de la herramienta.

AGRADECIMIENTOS
R. Bay agradece el financiamiento parcial del centro ICT4V (Information and Commu-
nication Technologies for Verticals) mediante la beca POS_ICT4V_2016_1 02. Adems, los
autores quieren agradecer al PEDECIBA (Programa de Desarrollo de las Ciencias Bsicas) y a
la ANII (Agencia Nacional de Investigacin e Innovacin), por la financiacin recibida a travs
del proyecto FSE_2013_10975.

REFERENCIAS
Foster I. Designing and building parallel programs. 1995.
Gabriel E., Fagg G.E., Bosilca G., Angskun T., Dongarra J.J., Squyres J.M., Sahay V., Kam-
badur P., Barrett B., Lumsdaine A., et al. Open mpi: Goals, concept, and design of a next
generation mpi implementation. En European Parallel Virtual Machine/Message Passing
Interface Users Group Meeting, pginas 97104. Springer, 2004.
Michalakes J., Chen S., Dudhia J., Hart L., Klemp J., Middlecoff J., y Skamarock W. Develop-
ment of a next generation regional weather research and forecast model. En Developments in
Teracomputing: Proceedings of the Ninth ECMWF Workshop on the use of high performance
computing in meteorology, volumen 1, pginas 269276. World Scientific, 2001.
Michalakes J. y Vachharajani M. Gpu acceleration of numerical weather prediction. Parallel
Processing Letters, 18(04):531548, 2008.
Padoin E.L., Pilla L.L., Boito F.Z., Kassick R.V., Velho P., y Navaux P.O. Evaluating application
performance and energy consumption on hybrid cpu+ gpu architecture. Cluster Computing,
16(3):511525, 2013.
Quinn M.J. Parallel Programming, volumen 526. TMH CSE, 2003.
Silva J.P., Hagopian J., Burdiat M., Dufrechou E., Pedemonte M., Gutirrez A., Cazes G., y
Ezzatti P. Another step to the full gpu implementation of the weather research and forecasting
model. The Journal of Supercomputing, 70(2):746755, 2014.
Skamarock W.C., Klemp J.B., y Dudhia J. Prototypes for the wrf (weather research and fore-
casting) model. En Preprints, Ninth Conf. Mesoscale Processes, J11J15, Amer. Meteorol.
Soc., Fort Lauderdale, FL. 2001.
Skamarock W.C., Klemp J.B., Dudhia J., Gill D.O., Barker D.M., Wang W., y Powers J.G. A
description of the advanced research wrf version 2. Informe Tcnico, DTIC Document, 2005.
Snir M. MPIthe Complete Reference: The MPI core, volumen 1. MIT press, 1998.

You might also like