Apuntesmodulo 4

Pronostico se enfoca al futuro, utiliza variables numéricas o categóricas al futuro.
Clasificación sin var objetivo, estimación con var obje numeric y pronóstico
Categórica numérica y ambas.
Agrupación (clustering) difiere de la clasificación en el hecho de que no existe una var objetivo.
No utiliza regresión ya que esta utiliza var objetivo.
Asociación: trata de descubrir las reglas para cuantificar la relación entre 2 o mas atributos. Las
reglas de asociación son de la forma si una condicionante, entonces una consecuencia.
La clasificación es insumo para las otras.

Fases de la minería:
Base de datos data wh -> selección de la información -> Procesamiento(creación de var objetivo) -
> MOdelacion -> Extraccion del conocmiento -> Evaluacion -> Resultados de la minería de datos.
Ventajas: encontrar patrones, modelos fáciles de entender y confiables.
Outliers datos que se salen del comportamiento normal.
Limitaciones: Depende de la pureza de las bd.
Existen 2 metodologias para la minería: crispi-dm. Modelo y esyructura en 6 fases que pueden ser
bidireccionales.
En la preparación de los datos se tratan los missings, los sesgos y los outliers. L a crisp se distingue
por que incluye el análisis del problema y la explotación.
Metodologia SEMMA: Se caracteriza por priorizar las fases desde un punto de vista técnico.
Sample o muestreo -> explore -> modify o manipulación -> Model o modelado -> Assess o
valoración.
La minería se puede aplicar en servicios financieros y economía telecomunicaciones distribución
Subajuste: Cuando el modelo no es capaz de ajustarse a los datos.

Sobreajuste. Cuando está especializado para una población particular. Como por ejemplo el
vestido de novia sobreajustado.
Conjuntos de datos: Entrenamiento (70 o 80) y validación (30, 20%

Modelo es una conexión entre las variables que son dadas y las que se van a predecir o clasificar.
Aprendizaje
Inductivo: se crea a partir de ejemplos o de la historia.
Deductivo: de mecanismos establecidos, aparte de la experiencia pudieran usarse TECNICAS
MATEMATICAS.
Modelos supervisados: arboles de decisión, redes neuronales, regresión y series de tiempo.

NO supervisados: Detección de desviaciones, segmentación, Agrupamiento, técnicas de asociación
y patrones secuenciales.
INTERVALO VARIABLE CONTINUA

ORDINAL VARIABLE CATEGORICA EJ 1 AL 3
Sesgo derecho se plica logaritmo y sesgo izquierdo la x cuadrada.

Se puede particionar la base como estratificada; en este caso se elige en el apartado variables y se
seleccionan aquellas que se quiere estratificar.
La tasa de error del modelo iris del árbol se calcularía realizando la sumatolria de los valores que el
modelo predijo o clasifico en un lugar distinto al del valor olriginal, por lo que seria la suma de
estos entre el total.
Las ramificaciones se calculan a través de un estadístico que nos devolverá el mayor nivel de
homogeneidad,
En sas la tasa del error es el missclasification rate: 0.1083
Para hacer el cálculo manual de la tasa de error se realiza el cociente de los falsos positivos y
negativos entre la sumatoria de los verdaderos positivos y negativos.
El árbol de decisión incluye las variables significativas que explican el comportamiento de la var
objetivo.
1.- estimación supervisado
2.- estimación de valores nulos
3.- estimación y discriminación de vars significativas.
Para seleccionar el calculo de la impureza se cambia el criterio nominal en la regla de division:
}
Para ver los cálculos de entropía en miner nos vamos a interactikvo – reglas de competencia:
En el caso de una variable continua, se utiliza el logworth que será aquel de mayor valor dado el p-
value aplicando la formula del log
En el tamaño de la hoja podemos limitar las observaciones:
EN LA REGRESION LINEAL PODEMOS VER LAS VARIABLES QUE SE DESCARTAN DE ACUERD AL
ESTIMADOR Y AL PR VALUE:
EN EL CASO ANTERIOR SE DESCARTA MEX Y CAT_PROF YA QUE EL ESTIMADOR ESTA EN CERO .

SE DESHECHA EL P VALUE MAS GRANDE Y NOS QUEDAMOS CON EL PVALUE QUE NO ESTE POR
ENCIMA DEL UMBRAL.
El coeficiente m mide la sensibilidad del modelo respecto a la variable x: y = mx + b
Para la regresión logística usamos los logits, como las betas o coeficientes.
Al realizar los despejes y sustituciones el resultado se refleja en el exponencial, el cual mide las
probabilidades; si el odd es un valor cercano a uno quiere decir que los resultados son muy
similares y si es distinto marca el impacto del cambio entre un valor y otro de la variable indicador.
(Sensibilidad de la respuesta). Se ven en el log los estimadores con VS en el miner.
En el ejemplo de los adultos y su percepción salarial se ve que la educación tiene impacto en el
resultado, ya que entre menor sea el valor mas será la diferencia entre un nivel educativo alto y
uno bajo:
La categoría preescolar (1) vs (16) doctorado triene un valor muy bajo debido a la enorme
diferencia.
Red neuronal, propiedades de la red:
Se pone error de clasificación:
Redes neuronales, autoneural, es posible escoger la función de activacion

Para el modelo de máquina de separación de vectores, se varía el kernel a fin de obtener la menor
tasa de error:
La sensibilidad en el bayes se calcula como el cociente mide la

El node de comparación de modelos permite hacer ñla comparación entre modelos
devolviéndonos el que tiene menor tasa de error:
En el caso de las curvas roc, la predicción del mejor modelo se hace en base a un valor mayor del
área bajo la curva, mayor sensibilidad y menor especificidad-
Para los fenómenos de baja probabilidad se usa mejor el criterio de las curvas ROC en lugar del
error de clasificación.
El nodo de puntuación permite dar el estadístico de los nuevos datos del modelo de
entrenamiento en base a un nuevo archivo prefijado con el rol de puntuación:
En el caso del ejemplo se anexo el archivo NCREDITOS:
En el olutput aparece el estadístico de la nueva poblacion:
Técnicas de evaluación:
Decision:
MiscRate error de clasificación
Average profit Loss (PERDIDAS O GANANCIAS)
K-S permite ver que tan similares son 2 poblaciones (buenos malos) entre mas chico sea el valor
mas se parecen; si es grande son distintos.
Ranking:
ROC si el ROC es > .7 indica que el modelo es bueno.
GINI : entre mas alto mejor >.6 o .7 para considerarlo bueno.
CurvaLift: Mide la potencia de discriminación de las poblaciones, se esperan valores altos.
Estas son Para categóricas.
Estimación:
Para evaluar vars. numéricas se usa el ASE average square error: Promedio de valores calculados.
Estabilidad: PSI (POPULATION STABILITY INDEX)AYUDA A MEDIR LAS POBLACIONES ENTRE

MMUESTRAS. ES UTIL CUANDO EN EL FUTURO SE PRESENTAN DATOS QUE NO SE AJUSTAN CON
LOS QUE SE DESARROLLO EL MODELO.
LOS K-S < 10 SE CONSIDERAN MALOS. EL K-S ES EL VALOR ABSOLUTO DE LA MAX DIFERENCIA
ENTRE LA DISTRIBUCION ACUMULADA DE UNA POBLACION Y OTRA.(BUENOS Y MALOS.).
EL ROC CUENTA LOS VERDADEROS POSITIVO Y LOS FALSOS POSITIVOS
EJE Y SENSIBILIDAD.
EJE X ESPECIFICIDAD
EL GINI MIDE EL ALEJAMIENTO QUE HAY ENTRE LA CURVA DE LOS DATOS VS LA DIAGONAL DEL
AZAR(IDENTIDAD).
CURVA LIFT MIDE QUE TAN BUEBO ES EL MODELO RESPETO AL ORDEN Y EL AZAR.
EL ASE(ERROR CUADRATICO MEDIO) TIENE LA DESVENTAJA DE VARIAR MUCHO DEPENDIENDO EL

ERROR OBSERVADO EN ALGUN RANGO
EL PUNTO DE CORTE PARA EL PSI ES .25 SI ES MAYOR HUBO UN CAMBIO SI FUERA .10 INDICA QUE
SE MANTUVO,
EN LOS MODELOS DONDE LAS VARIABLES SEASN CATEGORICAS LOS ARBOLES DE DECISIÓN
PUEDEN SER LA MEJOR OPCION
El diagrama de clasificación permite decidir la elección de un modelo en base a la clasificación de

los resultados buenos y malos. Se elige el que tenga menos diferencias entre categorías.
En los nodos las salidas pueden ser vista o datos. Las vistas no se pueden abrir mas qe con miner,
si le ponemos datos se pueden ver en cualquier sas:
Se revisó un ejemplo en donde se requería un modelo para predecir el ingreso del 80% de la
población; solo el 20% se conocía de los datos de la nomina.
Se aplicaron 3 modelos: Arbol, juicio experto del negocio y regresión lineal; Sin embargo al
implementar el modelo se tenia un r cuadrado del 70% que aparentemente era bueno, pero hizo
falta considerar la suma de los errores de los modelos que al final sumaba un 60%.
Al final el modelo quedo con un r2 del 40% que solo se ajustaba para generar utilidades en una
porción restringida de la población.
Las redes neuronales reaccionan mejor a poblaciones inestables.
Los odds son la probabilidad de buenos entre porcentaje de malos. El score es el ln de los odds.
Problema2:
PERFUMES
Objetivos:
Comportamiento de ventas
Identificar a los mejores
Clientes y ponerles 1 score.
Vars objetivo:
Compra (frecuente > 2 al mes)
Mucho ingreso
Edad 18-30(se toma en cuenta)
Genero
Edo civil
Profesión
Época del año(rebajas)
Monto total gastado (>3000)
Forma pago(TC)
Punto de venta()
Var pre P(B) p(m) ln(pb/pm)

= .96 / .04 = 0.1898
Alineación :
Min – max 0 - 100

Apuntesmodulo 4

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Apuntesmodulo 4

Uploaded by

Copyright:

Available Formats

Pronostico se enfoca al futuro, utiliza variables numéricas o categóricas al futuro.

La clasificación es insumo para las otras.

Subajuste: Cuando el modelo no es capaz de ajustarse a los datos.

Conjuntos de datos: Entrenamiento (70 o 80) y validación (30, 20%

Modelos supervisados: arboles de decisión, redes neuronales, regresión y series de tiempo.

INTERVALO VARIABLE CONTINUA

Sesgo derecho se plica logaritmo y sesgo izquierdo la x cuadrada.

EN EL CASO ANTERIOR SE DESCARTA MEX Y CAT_PROF YA QUE EL ESTIMADOR ESTA EN CERO .

Redes neuronales, autoneural, es posible escoger la función de activacion

La sensibilidad en el bayes se calcula como el cociente mide la

Estabilidad: PSI (POPULATION STABILITY INDEX)AYUDA A MEDIR LAS POBLACIONES ENTRE

EL ASE(ERROR CUADRATICO MEDIO) TIENE LA DESVENTAJA DE VARIAR MUCHO DEPENDIENDO EL

El diagrama de clasificación permite decidir la elección de un modelo en base a la clasificación de

Var pre P(B) p(m) ln(pb/pm)

You might also like