You are on page 1of 4

TRABAJO ESCTRACLASE

Minera de Datos
12 DE MAYO DE 2014
Alumno :
o Carlos Francisco Ojeda Urea.
Tutor:
o Alexandra Cristina Gonzalez Eras
Componente:
o Minera de Datos


Universidad Tcnica Particular de Loja
Weka reglas de asociacin
ZeroR: Este es uno de los ms primitivos clasificadores, si las clases son categricas
predice la predominante (clasificador de clase mayoritaria), o en caso de ser clases
numricas la promedia, segn estudios de Witten y Frank (2000). Este es muy usado como
punto de comparacin para comprobar la efectividad de otros algoritmos.
Cross-validation: evaluacin con validacin cruzada. Esta opcin es la ms elaborada y
costosa. Se realizan tantas evaluaciones como se indica en el parmetro Folds. Se dividen
las instancias en tantas carpetas como indica este parmetro y en cada evaluacin se
toman las instancias de cada carpeta como datos de test, y el resto como datos de
entrenamiento para construir el modelo. Los errores calculados son el promedio de todas
las ejecuciones.
DataSet: empleados.arff


















Precisin detallada por clase: para cada uno de los valores que puede tomar el
atributo de clase: el porcentaje de instancias con ese valor que son correctamente
predichas (TP Rate: true positives), y el porcentaje de instancias con otros valores
Porcentaje de aciertos en prueba
[Escriba una cita del documento o el
resumen de un punto interesante.
Puede situar el cuadro de texto en
cualquier lugar del documento. Use la
ficha Herramientas de dibujo para
cambiar el formato del cuadro de texto
de la cita.]
Porcentaje de aciertos desglosados por clase
Matriz de confusin
que son incorrectamente predichas a ese valor aunque tenan otro (FP Rate: false
positives). Las otras columnas, precision, recall, F-measure, se relacionan con estas
dos anteriores.
Matriz de confusin: aqu aparece la informacin detallada de cuantas instancias
de cada clase son predichas a cada uno de los valores posibles.
con Precisin nos referimos a la fraccin de ejemplares que se han clasificado como
de la clase correspondiente y que en realidad son de esa clase.
Recall (sensibilidad) que se refiere a la fraccin de ejemplos de la clase de todo el
conjunto que se clasifican correctamente.
F-Measure es la combinacin entre Precision y Recall
Este clasificador clasifica a todos los datos con la clase de la clase mayoritaria. Es decir, si
el 60% de los datos son positivos y el 40% son negativos, clasificar a todos los datos
como positivos. Es conveniente utilizar primero este clasificador, porque el porcentaje de
aciertos que obtengamos con l, es el que habr que superar con el resto de
clasificadores. Antes de lanzarlo, seleccionemos la opcin Crossvalidation (10) para hacer
el test y observaremos que obtenemos un 60% de aciertos. En el porcentaje de aciertos
desglosado por clase (TP rate, o True Positive Rate) vemos que la primera clase la acierta
al 100% (Hombres, TP rate = 1) y la otra falla (TP rate = 0%). Esto es lgico, dada la
manera en la que funciona ZeroR: slo acierta la clase mayoritaria, o la primera, en caso
de que ninguna sea mayoritaria. Ms abajo podemos ver la matriz de confusin, donde se
muestra que todos los datos los clasifica con Hombre.

.









Porcentaje de aciertos en prueba
Porcentaje de aciertos desglosados por clase
Con el clasificador PART observamos que ahora el porcentaje de aciertos es 66,66%, a
mejorado, comparado con el 60% del caso base (ZeroR). En el desglose de los aciertos
por clase, vemos que ambas aciertan bastante bien, teniendo ambas el mismo porcentaje
0.667.
En la matriz de confusin, podemos ver como los datos acertados estn en la diagonal, y
los fallados fuera de ella.



Matriz de confusin

You might also like