Parallel Ensemble

Parallel Ensemble
Pablo Orme
no A.
Universidad T
ecnica Federico Santa Mara
pormen@alumnos.inf.utfsm.cl
Junio 2015
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
1 / 28
Propuesta
Figura : Ensamblado de Topc Models
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
2 / 28
Propuesta
Objetivo 1: Paralelizar un Ensamblado de Topic Models.

Objetivo 2: Disminuir los tiempos de ejecucion del algoritmo
secuencial.
Objetivo 3: Probar Bagging y Adaboost Paralelo aplicado a Topic
Models con gran volumen de datos.
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
3 / 28
Introduccion
Ensamblados
Ensamblados Paralelos
Evaluacion y Resultados
Conclusiones
Propuesta
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
4 / 28
Introduccion
Data Mining es una poderosa tecnica para extraer informacion

oculta de un gran dataset.
Clasificaci
on es una aplicacion muy popular en Data Mining.
Dado un conjunto de entrenamiento, el objetivo de clasificacion es
el de entrenar un modelo para predecir las etiquetas de las clases.
Luego de que el modelo es entrenado, se utiliza para analizar nuevos
datos y hacer predicciones.
La calidad de la clasificacion se mide en accuracy : se refiere al grado
de ajuste entre el modelo y los datos
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
5 / 28
Introduccion
Por lo general, los datasets son muy grandes, usan peque

nas
proporciones o subconjuntos que permitan acelerar las tareas.
Es posible generar una familia de predictores usando diferentes
subconjuntos del dataset de entrenamiento y combinar esos
predictores y obtener accuracy mas alto.
Al usar tecnicas de ensamblado, se obtienen altos accuracy a un
menor costo. Existen muchas variantes de tecnicas de ensamblado,
como por ejemplo Bagging [REFERENCIA] y Boosting
[REFERENCIAS]
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
6 / 28
Introduccion
Ensamblados
Conclusiones
Propuesta
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
7 / 28
Bagging
Bagging (Boostrap Aggregating): metodo para generar m

ultiples
versiones de un predictor.
Esta agregaci
on promedia sobre las versiones y usa esta pluralidad
cuando se quiere predecir una clase.
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
8 / 28
Algoritmo Bagging
Figura : Algoritmo Bagging
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
9 / 28
Adaboost
Adaboost utiliza perturbacion y combinaci

on. Adopta la forma de
remuestreo adaptativo y combina los pesos en la etapa de remuestreo,
donde los datos mal clasificados obtienen mayor ponderacion. La
combinaci
on tambien se hace por votacion.
Para Adaboost, el conjunto de pesos se mantiene sobre el conjunto
de entrenamiento. Una forma de implementarlo en la practica es
remuestrear el dataset basado en los pesos de las instancias. El peso
de cada instancia se ajusta en cada ronda de acuerdo a las instancias
clasificadas correctamente o no.
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
10 / 28
Algoritmo Adaboost
Figura : Algoritmo Adaboost
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
11 / 28
Introduccion
Ensamblados
Conclusiones
Propuesta
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
12 / 28
Parallel Bagging
Se divide el conjunto de entrenamiento en P subconjuntos (o

Procesadores) y se asignan cada subconjunto a un procesador. Este
subconjunto sera el datasert local de entrenamiento en cada
procesador.
Cada uno de los procesadores crea su conjunto replica boostrap
(remuestreo con reemplazo), del conjunto de entrenamiento.
Cada procesador ejecuta el mismo algoritmo de data mining en esta
muestra local y genera un predictor de este. El proceso se repite R
veces hasta que R x P predictores se obtienen. Donde el valor de R
depende de las propiedades del dataset, del tama
no de la muestra y el
n
umero de predictores que se utilizan actualmente.
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
13 / 28
Parallel Bagging
La tecnica de Bagging funciona ya que genera una familia de

predictores agregandolos por votacion o promedio.
Parallel Bagging reduce el acceso a los datos al particionar el
conjunto de datos completo. Al usar muestras de tamao pequeo se
ayuda a disminuir el tiempo de entrenamiento.
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
14 / 28
Algoritmo Parallel Bagging
Figura : Algoritmo Bagging Parallel
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
15 / 28
Parallel Adaboost
Suponer P procesadores. El conjunto completo de datos se divide en
P subconjuntos y cada subconjunto se asigna a un procesador como
conjunto de entrenamiento local a cada procesador. Una distribucion
de este conjunto de entrenamiento local se mantiene en cada
procesador.
Esta distribuci
on representa la selecci
on de probabilidad de cada
instancia desde el conjunto de entrenamiento local. La probabilidad
de cada ejemplo se inicializa en n1 , donde n es el n
umero de ejemplos
del conjunto de datos de entrenamiento.
El subconjunto selecciona basado en la probabilidad de que cada
instancia en cada procesador para formar la muestra.
El mismo algoritmo de data mining se aplica a cada una de las
muestras locales y se genera un predictor.
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
16 / 28
Parallel Adaboost
Entonces un intercambio total entre todos los procesadores se

ejecuta, cada procesadorpasa su predictor local a todos los otros
procesadores, por lo que ahora cada procesador tiene P predictores.
En las siguiente ronda, en cada procesador, una nueva muestra se
forma basada en la distribuci
on actualizada y un predictor se genera
nuevamente de esta nueva muestra, seguido por el intercambio total
de los predictores generados en esta etapa y en la actualizaci
on de la
distribuci
on.
Mismo procedimiento se repite R veces hasta que finalmente R x P
predictores se obtienen, donde R es el n
umero de iteraciones
definidas por el usuario.
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
17 / 28
Parallel Adaboost
Este entrenamiento termina con R x P predictores. Luego todos estos

predictores se utilizan con los nuevos datos de test.
Para calcular el accuracy, todos los predictores votan en el conjunto
de test con un peso log ( 1 para obtener la salida final del predictor
combinado.
En [REFERENCIA] se puede observar que Adaboost obtiene mejores
resultados que Bagging.
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
18 / 28
Algoritmo Parallel Adaboost
Figura : Algoritmo Adaboost Parallel
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
19 / 28
Introduccion
Ensamblados
Conclusiones
Propuesta
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
20 / 28
Medidas de evaluacion y performance
Accuracy de Clasificaci
on: habilidad de predecir correctamente las
etiquetas nuevas.
Tiempo de Ejecuci
on: tiempo comprendido entre el comienzo y el
final en la ejecucion de un programa.
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
21 / 28
Bagging Secuencial y Bagging Paralelo
Figura : Comparacion Accuracy y Tiempo de Ejecucion

Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
22 / 28
Adaboost Secuencial y Adaboost Paralelo
Figura : Comparacion Accuracy y Tiempo de Ejecucion

Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
23 / 28
Introduccion
Ensamblados
Conclusiones
Propuesta
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
24 / 28
Conclusiones
Ambos algoritmos se pueden paralelizar.

EL accuracy esta limitado por el tamao de la muestra.
Parallel Adaboost supera a Parallel Bagging en precisi
on, lo que se
fundamenta principalmente en el poder adapativo del remuestro.
Parallel Adaboost es mas barato que Parallel Bagging, debido a las
frecuentes repeticiones en las muestras generadas en este u
ltimo, en
las rondas subsiguientes. Se necesita menos tiempo.
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
25 / 28
Introduccion
Ensamblados
Conclusiones
Propuesta
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
26 / 28
Propuesta
Figura : Ejemplo Simplex
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
27 / 28
Propuesta
Objetivo 1: Paralelizar un Ensamblado de Topic Models.

Objetivo 2: Disminuir los tiempos de ejecucion del algoritmo
secuencial.
Objetivo 3: Probar Bagging y Adaboost Paralelo aplicado a Topic
Models con gran volumen de datos.
Pablo Orme
no A. (UTFSM)
Parallel Ensemble
Junio 2015
28 / 28

Parallel Ensemble

Uploaded by

Document Information

Original Description:

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Parallel Ensemble

Uploaded by

Copyright:

Available Formats

Parallel Ensemble

Figura : Ensamblado de Topc Models

Objetivo 1: Paralelizar un Ensamblado de Topic Models.

Data Mining es una poderosa tecnica para extraer informacion

Por lo general, los datasets son muy grandes, usan peque

Bagging (Boostrap Aggregating): metodo para generar m

Figura : Algoritmo Bagging

Adaboost utiliza perturbacion y combinaci

Figura : Algoritmo Adaboost

Se divide el conjunto de entrenamiento en P subconjuntos (o

La tecnica de Bagging funciona ya que genera una familia de

Algoritmo Parallel Bagging

Figura : Algoritmo Bagging Parallel

Entonces un intercambio total entre todos los procesadores se

Este entrenamiento termina con R x P predictores. Luego todos estos

Algoritmo Parallel Adaboost

Figura : Algoritmo Adaboost Parallel

Medidas de evaluacion y performance

Bagging Secuencial y Bagging Paralelo

Figura : Comparacion Accuracy y Tiempo de Ejecucion

Adaboost Secuencial y Adaboost Paralelo

Figura : Comparacion Accuracy y Tiempo de Ejecucion

Ambos algoritmos se pueden paralelizar.

Figura : Ejemplo Simplex

Objetivo 1: Paralelizar un Ensamblado de Topic Models.

You might also like