You are on page 1of 28

Parallel Ensemble

Pablo Orme
no A.
Universidad T
ecnica Federico Santa Mara
pormen@alumnos.inf.utfsm.cl

Junio 2015

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

1 / 28

Propuesta

Figura : Ensamblado de Topc Models

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

2 / 28

Propuesta

Objetivo 1: Paralelizar un Ensamblado de Topic Models.


Objetivo 2: Disminuir los tiempos de ejecucion del algoritmo
secuencial.
Objetivo 3: Probar Bagging y Adaboost Paralelo aplicado a Topic
Models con gran volumen de datos.

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

3 / 28

Introduccion

Ensamblados

Ensamblados Paralelos

Evaluacion y Resultados

Conclusiones

Propuesta

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

4 / 28

Introduccion

Data Mining es una poderosa tecnica para extraer informacion


oculta de un gran dataset.
Clasificaci
on es una aplicacion muy popular en Data Mining.
Dado un conjunto de entrenamiento, el objetivo de clasificacion es
el de entrenar un modelo para predecir las etiquetas de las clases.
Luego de que el modelo es entrenado, se utiliza para analizar nuevos
datos y hacer predicciones.
La calidad de la clasificacion se mide en accuracy : se refiere al grado
de ajuste entre el modelo y los datos

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

5 / 28

Introduccion

Por lo general, los datasets son muy grandes, usan peque


nas
proporciones o subconjuntos que permitan acelerar las tareas.
Es posible generar una familia de predictores usando diferentes
subconjuntos del dataset de entrenamiento y combinar esos
predictores y obtener accuracy mas alto.
Al usar tecnicas de ensamblado, se obtienen altos accuracy a un
menor costo. Existen muchas variantes de tecnicas de ensamblado,
como por ejemplo Bagging [REFERENCIA] y Boosting
[REFERENCIAS]

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

6 / 28

Introduccion

Ensamblados

Ensamblados Paralelos

Evaluacion y Resultados

Conclusiones

Propuesta

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

7 / 28

Bagging

Bagging (Boostrap Aggregating): metodo para generar m


ultiples
versiones de un predictor.
Esta agregaci
on promedia sobre las versiones y usa esta pluralidad
cuando se quiere predecir una clase.

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

8 / 28

Algoritmo Bagging

Figura : Algoritmo Bagging

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

9 / 28

Adaboost

Adaboost utiliza perturbacion y combinaci


on. Adopta la forma de
remuestreo adaptativo y combina los pesos en la etapa de remuestreo,
donde los datos mal clasificados obtienen mayor ponderacion. La
combinaci
on tambien se hace por votacion.
Para Adaboost, el conjunto de pesos se mantiene sobre el conjunto
de entrenamiento. Una forma de implementarlo en la practica es
remuestrear el dataset basado en los pesos de las instancias. El peso
de cada instancia se ajusta en cada ronda de acuerdo a las instancias
clasificadas correctamente o no.

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

10 / 28

Algoritmo Adaboost

Figura : Algoritmo Adaboost

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

11 / 28

Introduccion

Ensamblados

Ensamblados Paralelos

Evaluacion y Resultados

Conclusiones

Propuesta

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

12 / 28

Parallel Bagging

Se divide el conjunto de entrenamiento en P subconjuntos (o


Procesadores) y se asignan cada subconjunto a un procesador. Este
subconjunto sera el datasert local de entrenamiento en cada
procesador.
Cada uno de los procesadores crea su conjunto replica boostrap
(remuestreo con reemplazo), del conjunto de entrenamiento.
Cada procesador ejecuta el mismo algoritmo de data mining en esta
muestra local y genera un predictor de este. El proceso se repite R
veces hasta que R x P predictores se obtienen. Donde el valor de R
depende de las propiedades del dataset, del tama
no de la muestra y el
n
umero de predictores que se utilizan actualmente.

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

13 / 28

Parallel Bagging

La tecnica de Bagging funciona ya que genera una familia de


predictores agregandolos por votacion o promedio.
Parallel Bagging reduce el acceso a los datos al particionar el
conjunto de datos completo. Al usar muestras de tamao pequeo se
ayuda a disminuir el tiempo de entrenamiento.

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

14 / 28

Algoritmo Parallel Bagging

Figura : Algoritmo Bagging Parallel

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

15 / 28

Parallel Adaboost
Suponer P procesadores. El conjunto completo de datos se divide en
P subconjuntos y cada subconjunto se asigna a un procesador como
conjunto de entrenamiento local a cada procesador. Una distribucion
de este conjunto de entrenamiento local se mantiene en cada
procesador.
Esta distribuci
on representa la selecci
on de probabilidad de cada
instancia desde el conjunto de entrenamiento local. La probabilidad
de cada ejemplo se inicializa en n1 , donde n es el n
umero de ejemplos
del conjunto de datos de entrenamiento.
El subconjunto selecciona basado en la probabilidad de que cada
instancia en cada procesador para formar la muestra.
El mismo algoritmo de data mining se aplica a cada una de las
muestras locales y se genera un predictor.

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

16 / 28

Parallel Adaboost

Entonces un intercambio total entre todos los procesadores se


ejecuta, cada procesadorpasa su predictor local a todos los otros
procesadores, por lo que ahora cada procesador tiene P predictores.
En las siguiente ronda, en cada procesador, una nueva muestra se
forma basada en la distribuci
on actualizada y un predictor se genera
nuevamente de esta nueva muestra, seguido por el intercambio total
de los predictores generados en esta etapa y en la actualizaci
on de la
distribuci
on.
Mismo procedimiento se repite R veces hasta que finalmente R x P
predictores se obtienen, donde R es el n
umero de iteraciones
definidas por el usuario.

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

17 / 28

Parallel Adaboost

Este entrenamiento termina con R x P predictores. Luego todos estos


predictores se utilizan con los nuevos datos de test.
Para calcular el accuracy, todos los predictores votan en el conjunto
de test con un peso log ( 1 para obtener la salida final del predictor
combinado.
En [REFERENCIA] se puede observar que Adaboost obtiene mejores
resultados que Bagging.

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

18 / 28

Algoritmo Parallel Adaboost

Figura : Algoritmo Adaboost Parallel

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

19 / 28

Introduccion

Ensamblados

Ensamblados Paralelos

Evaluacion y Resultados

Conclusiones

Propuesta

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

20 / 28

Medidas de evaluacion y performance

Accuracy de Clasificaci
on: habilidad de predecir correctamente las
etiquetas nuevas.
Tiempo de Ejecuci
on: tiempo comprendido entre el comienzo y el
final en la ejecucion de un programa.

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

21 / 28

Bagging Secuencial y Bagging Paralelo

Figura : Comparacion Accuracy y Tiempo de Ejecucion


Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

22 / 28

Adaboost Secuencial y Adaboost Paralelo

Figura : Comparacion Accuracy y Tiempo de Ejecucion


Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

23 / 28

Introduccion

Ensamblados

Ensamblados Paralelos

Evaluacion y Resultados

Conclusiones

Propuesta

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

24 / 28

Conclusiones

Ambos algoritmos se pueden paralelizar.


EL accuracy esta limitado por el tamao de la muestra.
Parallel Adaboost supera a Parallel Bagging en precisi
on, lo que se
fundamenta principalmente en el poder adapativo del remuestro.
Parallel Adaboost es mas barato que Parallel Bagging, debido a las
frecuentes repeticiones en las muestras generadas en este u
ltimo, en
las rondas subsiguientes. Se necesita menos tiempo.

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

25 / 28

Introduccion

Ensamblados

Ensamblados Paralelos

Evaluacion y Resultados

Conclusiones

Propuesta

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

26 / 28

Propuesta

Figura : Ejemplo Simplex

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

27 / 28

Propuesta

Objetivo 1: Paralelizar un Ensamblado de Topic Models.


Objetivo 2: Disminuir los tiempos de ejecucion del algoritmo
secuencial.
Objetivo 3: Probar Bagging y Adaboost Paralelo aplicado a Topic
Models con gran volumen de datos.

Pablo Orme
no A. (UTFSM)

Parallel Ensemble

Junio 2015

28 / 28

You might also like