Professional Documents
Culture Documents
Clasificación sin var objetivo, estimación con var obje numeric y pronóstico
Categórica numérica y ambas.
Agrupación (clustering) difiere de la clasificación en el hecho de que no existe una var objetivo.
No utiliza regresión ya que esta utiliza var objetivo.
Asociación: trata de descubrir las reglas para cuantificar la relación entre 2 o mas atributos. Las
reglas de asociación son de la forma si una condicionante, entonces una consecuencia.
Para hacer el cálculo manual de la tasa de error se realiza el cociente de los falsos positivos y
negativos entre la sumatoria de los verdaderos positivos y negativos.
El árbol de decisión incluye las variables significativas que explican el comportamiento de la var
objetivo.
1.- estimación supervisado
2.- estimación de valores nulos
3.- estimación y discriminación de vars significativas.
Para seleccionar el calculo de la impureza se cambia el criterio nominal en la regla de division:
}
Para ver los cálculos de entropía en miner nos vamos a interactikvo – reglas de competencia:
En el caso de una variable continua, se utiliza el logworth que será aquel de mayor valor dado el p-
value aplicando la formula del log
En el tamaño de la hoja podemos limitar las observaciones:
EN LA REGRESION LINEAL PODEMOS VER LAS VARIABLES QUE SE DESCARTAN DE ACUERD AL
ESTIMADOR Y AL PR VALUE:
La categoría preescolar (1) vs (16) doctorado triene un valor muy bajo debido a la enorme
diferencia.
Red neuronal, propiedades de la red:
Se pone error de clasificación:
Ranking:
ROC si el ROC es > .7 indica que el modelo es bueno.
GINI : entre mas alto mejor >.6 o .7 para considerarlo bueno.
CurvaLift: Mide la potencia de discriminación de las poblaciones, se esperan valores altos.
Estas son Para categóricas.
Estimación:
Para evaluar vars. numéricas se usa el ASE average square error: Promedio de valores calculados.
LOS K-S < 10 SE CONSIDERAN MALOS. EL K-S ES EL VALOR ABSOLUTO DE LA MAX DIFERENCIA
ENTRE LA DISTRIBUCION ACUMULADA DE UNA POBLACION Y OTRA.(BUENOS Y MALOS.).
EL ROC CUENTA LOS VERDADEROS POSITIVO Y LOS FALSOS POSITIVOS
EJE Y SENSIBILIDAD.
EJE X ESPECIFICIDAD
EL GINI MIDE EL ALEJAMIENTO QUE HAY ENTRE LA CURVA DE LOS DATOS VS LA DIAGONAL DEL
AZAR(IDENTIDAD).
CURVA LIFT MIDE QUE TAN BUEBO ES EL MODELO RESPETO AL ORDEN Y EL AZAR.
En los nodos las salidas pueden ser vista o datos. Las vistas no se pueden abrir mas qe con miner,
si le ponemos datos se pueden ver en cualquier sas:
Se revisó un ejemplo en donde se requería un modelo para predecir el ingreso del 80% de la
población; solo el 20% se conocía de los datos de la nomina.
Se aplicaron 3 modelos: Arbol, juicio experto del negocio y regresión lineal; Sin embargo al
implementar el modelo se tenia un r cuadrado del 70% que aparentemente era bueno, pero hizo
falta considerar la suma de los errores de los modelos que al final sumaba un 60%.
Al final el modelo quedo con un r2 del 40% que solo se ajustaba para generar utilidades en una
porción restringida de la población.
Las redes neuronales reaccionan mejor a poblaciones inestables.
Los odds son la probabilidad de buenos entre porcentaje de malos. El score es el ln de los odds.
Problema2:
PERFUMES
Objetivos:
Comportamiento de ventas
Identificar a los mejores
Clientes y ponerles 1 score.
Vars objetivo:
Compra (frecuente > 2 al mes)
Mucho ingreso
Edad 18-30(se toma en cuenta)
Genero
Edo civil
Profesión
Época del año(rebajas)
Monto total gastado (>3000)
Forma pago(TC)
Punto de venta()