Professional Documents
Culture Documents
Salida
1. Contexto (Background):
Modelo esttico del negocio. Registra la informacin de la situacin del mismo al momento de iniciar el proyecto.
Proporciona una visin del contexto: en qu rea se est trabajando, cules son los problemas identificados y por qu el
data mining podra solucionarlos.
Esta compuesto por la misin de la empresa, los clientes y la competencia que esta posee. Tambin pueden incluirse
una lista de productos o servicios que brinda.
Describir los criterios que van a permitir determinar si se alcanzaron resultados exitosos desde la
perspectiva del negocio. Estos pueden bien ser cuantificables y especficos o mas generales. En este
ultimo caso, debe determinarse quien va a ser el que lo determine.
Ejemplos
.1
Contexto:
La empresa pertenece al rubro automotriz. Posee una fuerte presencia en varios segmentos del
mercado automotor. Ofrece modelos de alta gama, utilitarios, 4x4 y en los ltimos aos ha
incursionado en el nuevo segmento de crossover.
La casa matriz est radicada en Japn, pero posee varias fbricas en Latinoamrica.
El negocio se divide en distintas regiones (Asia, Europa, Norteamrica y Amrica Latina), donde
existen modelos acordes a las necesidades y gustos del consumidor de cada regin en particular.
Sus clientes son hombres solteros o grupos familiares pertenecientes a sectores medios-altos.
La misin principal de la empresa es producir en la mayor cantidad de regiones, automviles que se
.3
Salida
.1
Listar todos los recursos disponibles para el proyecto incluyendo personal (expertos en mineria de
datos, tecnicos, etc), de datos (planillas, acceso a un datawarehouse, etc), de hardware y software.
.2
Lista con todos los requerimientos del proyecto incluyendo los planificacin de los plazos, forma de
presentacion de los datos y de calidad de los resultados.
Tambin deben incluirse suposiciones acerca del modelo de negocio que pueden ser chequeados
durante el proceso de minera de datos, y otros que no y son vitales para el proyecto.
Por ltimo debe contener restricciones que permitan desarrollar el proyecto en forma correcta como
por ejemplo por ejemplo la disponibilidad y volumen de los datos, tecnologas, etc.
.3
Lista de los riesgos o eventos que pueden ocurrir demorar o incluso hacer que falle el proyecto.
Deben inclurise tambien los planes de contingencia para mitigar estos contratiempos.
.4
Terminologa (Glosario)
Glosario de terminologa relevante al proyecto. Este glosario debe abarcar tanto trminos propios
del negocio como aquellos especficos de data mining.
.5
Anlisis de Costo/Beneficio (Project Management, aunque generalmente lo hace en
conjunto con el CFO)
Anlisis costo-beneficio del proyecto. El mismo debe ser muy especfico y utilizar, por ejemplo,
trminos monetarios.
Ejemplo
.4
Terminologa
a. Del negocio:
Crossover: Es un trmino de marketting para vehculos que derivan de una
plataforma de automvil pero tomando prestadas caractersticas de un SUV.
SUV: proviene de las siglas, en ingls, de Vehculo Deportivo Utilitario (Sport
Utility Vehicule). Es un vehculo todoterreno ligero, mezclando caractersticas de un
todoterreno convencional y un vehculo de turismo.
Utilitarios: Trmino de marketting relacionado a los vehculos utilizados para una
tarea especfica, generalmente relacionada al transporte de mercaderas o grupos de
personas.
b. De la minera de datos:
Clusterizacin: Algoritmo que determina grupos de entidades que poseen alguna
relacin entre s, relacin que no est determinada a priori o no se conoce un
mecanismo exacto de clasificacin. En el caso del negocio que estamos estudiando,
la clusterizacin nos mostrara diversos grupos de clientes agrupados por
caractersticas como nivel de ingreso, cantidad de hijos, etc.
Reglas de asociacin: mtodo utilizado para descubrir relaciones interesantes entre
variables de una base de datos cuyo tamao es considerable. En nuestro negocio, una
relacin interesante podra ser que un cliente que vive en determinada regin, posee
un determinado ingreso pero no tiene familia ni est casado, opta preferentemente
por vehculos familiares.
Salidas
.1
Objetivos concretos del proyecto que permiten cumplir con los objetivos del negocio.
.2
Describe los criterios para saber si se obtienen resultados exitosos en trminos tcnicos. Por
ejemplo, un cierto nivel de aciertos en las predicciones.
Ejemplos
.1
.2
Salidas
.1
Detalla todas las etapas del proyecto a ser realizadas, indicando para cada una la duracin y los
recursos a utilizar. Contiene planes detallados para cada fase. Es un documento dinmico que se va
reajustando durante la ejecucin del proyecto.
.2
Esto es muy importante ya que las herramientas posiblemente condicionen el desarrollo del
proyecto.
Salidas
.1
Listado con el conjunto de los datos obtenidos junto con informacin acerca de donde provienen,
los mtodos usados para adquirirlos y aquellos problemas que fueron encontrados en dicho proceso.
En caso de haber inconvenientes, deben detallarse cuales fueron las soluciones que se utilizaron
para resolverlos. Esta informacin tambin es til para futuros proyectos.
Ejemplos
.1
Reporte de Recoleccin Inicial de Datos
o VENTAS
o Tipo: Base de Datos Oracle 8i
o Locacin: Servidor local de la empresa
o Mtodos de acceso: Drivers ODBC
o Encuestas de satisfaccin
o Tipo: Planillas Excel 2007
o Locacin: Archivo compartido en la intranet de la empresa
o Mtodos de Accesos: Drivers ODBC, UNC
o Problemas Encontrados: No todos los archivos poseen la misma estructura
o DW de MARKETTING
o Tipo: Base de Datos OLAP SQL Server Analysis Services 2005
o Locacin: Servidor Local de la empresa
o Mtodos de Acceso: Queries MDX
Salidas
.1
Describir los datos que fueron adquiridos incluyendo el formato de los datos, cantidad de los
mismos, etc.
Ejemplos
.1
Reporte de descripcin de los datos
o VENTAS: la base de datos pertenece a la aplicacin transaccional utilizada para registrar las
ventas globlales de la compaa. Contiene alrededor de 90 tablas, muchas de las cuales se
encuentran duplicadas por regin. Para el proyecto actual, interesan las siguientes:
o [REGION]_Clientes: contiene un listado de los clientes, por regin. Contiene en
promedio unos 2000 registros, con los siguientes datos: Nombre y Apellido (texto), #
Documento (numrico), Nacionalidad (numrico, identificador primario en otra
tabla), Profesin (numrico, identificador primario en otra tabla), Cantidad de Hijos
(numrico), Fecha de Alta (fecha), entre otros.
o [REGION]_Reservas: Contiene registros relativos a la reservaciones realizados por
un cliente. Esto es, un registro de las futuras ventas an no realizadas. Dado que es
una especie de tabla temporal, la cantidad de registros que tiene es baja, alrededor de
100.
o [REGION]_Ventas: Contiene un registro de las ventas realizadas en la regin. Posee
alrededor de 100.000 registros, con informacin desde el ao 2004.
o Encuestas de Satisfaccin
o Se disponen un total de 3500 encuestas realizadas a los clientes, e incluyen tanto
encuestas a clientes que acababan de comprar un auto o clientes que han trado un
auto para ponerlo a la venta (a travs del servicio de toma de autos usados que
poseen las concesionarias).
o El formato del archivo excel contiene 25 preguntas, algunas de carcter general, y
otras especficas de la transaccin. No todas las encuestas mostraron un formato
idntico.
Salidas
.1
Ejemplos
.1
o Encuestas de satisfaccin
El 90% de las encuestas pertenecen a clientes que realizaron una compra. El
10% restante, de los clientes que vendieron su vehculo usado
El 25% de las encuestas poseen un formato distinto a la mayora. Al parecer,
esto se debe a un cambio en el formato realizado en el ao 2006.
Salidas
.1
Listar los resultados obtenidos. En caso de encontrar errores, plantear posibles soluciones a los
mismos.
Ejemplos
.1
o Encuestas de Satisfaccin
En el caso de las encuestas realizadas a los clientes que pusieron sus autos
usados en venta, la mayora carece de respuestas completas.
Posible solucin: dado que carecen de sentido para el proyecto actual,
podran desestimarse las encuestas de este tipo.
Salidas
.1
Ejemplos
.1
Criterios para la inclusin/exclusin:
o VENTAS:
o Se incluirn las tablas *_CLIENTES y *_VENTAS, con todos sus campos.
o Se excluirn los clientes que no posean ventas asociadas.
o Encuestas de satisfaccin:
o Se incluirn slo aquellas realizadas a clientes que acaban de finalizar una compra.
o Se excluirn las preguntas que, dentro del grupo seleccionado ms arriba, posean un
80% de completitud (es decir, se responden en el 80% de las encuentas) o bien si la
cantidad excede la cantidad de 2000.
Salidas
.1
Este reporte describe que decisiones y acciones fueron tomadas para corregir los problemas de
calidad reportados anteriormente.
Ejemplos
.1
Reporte de limpieza de datos.
o VENTAS
o Un anlisis de las tablas *_Cliente arroj que un alto porcentaje de los clientes
registrados no poseen ventas asociadas, y a la vez otro porcentaje (menor que el
anterior) carece de ciertos datos (por ejemplo, cantidad de hijos, Nacionalidad,
profesin).
o Solucin aceptada: Se resolvi en la tarea anterior, al no considerar los clientes que
no poseen ventas asociadas.
o Existen reservas que fueron canceladas y otras que figuran como completadas, pero
no se encuentra el registro correspondiente en las tablas de Ventas.
o Solucin aceptada: Se resolvi descartando las tablas de Reservas, dado que no
aportan mucho al proyecto.
o Encuestas de Satisfaccin
o En el caso de las encuestas realizadas a los clientes que pusieron sus autos usados
en venta, la mayora carece de respuestas completas.
Solucin aceptada: Se resolvi en la tarea anterior, descartando las encuestas de
vehculos usados.
o El 40% de todas las encuestas posee campos incompletos.
Solucin aceptada: Se resolvi en la tarea anterior.
Salidas
.1
.2
Atributos derivados
Registros generados
Ejemplos
.1
Atributos derivados
VENTAS
o Se agrearon los campos:
Edad (calculado como la diferecia entre la fecha actual y la fecha de
nacimiento, en aos cumplidos completamente)
Cantidad de meses desde la ltima compra (cantidad de meses que pasaron
desde la fecha ltima de compra hasta la fecha actual)
Encuestas de Satisfaccin
o Se agregaron los campos:
.1
Salidas
.1
Datos combinados
Ejemplos
.1
Datos combinados
No se realizaron datos combinados ya que se van a trabajar distintos modelos sobre las
fuentes, por separado. Por lo cual no se requiere la combinacin de mltiples fuentes de
datos.
Salidas
.1
.2
Tcnica de modelado
Supuestos del modelado
Las tecnicas de modelado por lo general requieren que los datos tengan determinadas
caracteristicas. En esta salida es donde se escriben las mismas.
Ejemplos
.1
Tcnica de modelado
Clusterizacin: se va a utilizar para determinar reglas que permitan determinar la
pertenencia de un futuro cliente a un determinado tipo de cliente.
Reglas de Asociacin: se van a utilizar reglas de asociacin para descrubir patrones, a partir
de las encuentas, que permitan conocer ms acerca de cmo y por qu un cliente decide
cambiar de modelo y/o de marca.
.1
Supuestos del modelado
Se contar con la cantidad de registros y con la calidad requerida por el algoritmo.
Se contar con la cantidad de encuestas que permitan obtener el nivel pedido de exactitud y
se contar con un analista del negocio que asista en el proceso de validacin de reglas
detectadas.
Salidas
.1
Diseo de pruebas
Ejemplos
.1
Diseo de pruebas
Clusterizacin
o Se va a dividir el total de registros en dos grupos, generados en forma aleatoria:
Conjunto de entrenamiento (training set), que contendr aproximadamente el 70%
del conjunto total; y un Conjunto de validacin (testing set) que ser utilizado para
validar los grupos detectados por el algoritmo.
o Se va generar una poblacin con una distribucin conocida, similar al conjunto de
datos original, utilizando un producto diseado para tal fin.
Reglas de asociacin
o Se validarn las reglas detectadas con un grupo de analistas del negocio provistos
por el cliente.
o Se gener un grupo de posibles reglas vlidas para generar una nueva pasada con los
nuevos datos.
Salidas
.1
Configuracin de parmetros
.2
.3
Modelos
Descripcin de los modelos
Esta es una interpretacin del modelo resultante. Tambin deben documentarse todas las
dificultades encontradas con sus significados.
Ejemplos
.1
Configuracin de parmetros
Clusterizacin:
o Grado de representatividad de los grupos detectados
o Cantidad de grupos a generar
Reglas de asociacin:
o Grado de veracidad de las reglas con respecto a los datos disponibles.
.1
Modelos
Los modelos generados por las herramientas, en nuestro caso, los algoritmos de
clusterizacin y las reglas de asociacin.
.1
Ac se describiran los modelos generados a partir de las herramientas utilizadas, como ser
cules son los calculos que se realizaron, que decisiones se tomaron,etc.
Salidas
.1
Esta salida consiste en resumir los resultados, listar las cualidades de cada uno de los modelos
obtenidos y categorizar los resultados segn su calidad.
.2
En base al resultado de las evaluaciones de los modelos, se pueden revisar los parametros de los
mismos y modificarlos para obtener mejores resultados. Los modelos pueden volver a ser generados
hasta obtener resultados que sean satisfactorios.
Ejemplos
.1
Evaluacin del modelo
Modelo de Clusterizacin
o Algoritmo 1
Grado de veracidad: 71%
Cantidad de registros omitidos: 10%
o Algoritmo 2
Grado de veracidad: 90%
Cantidad de registros omitidos: 35%
Reglas de asociacin
o Algoritmo 1
reglas detectadas: 100
Promedio de veracidad contrastada con los datos: 50%
o Algoritmo 2
reglas detectadas 19
Promedio de veracidad contrastada con los datos: 75%
.1
Configuracin revisada de parmetros
Se revisaron los parmetros del algoritmo 2 para disminuir la cantidad de registros omitidos,
al dismunir el grado de representatividad.
Se ajustaron los parmetros del algoritmo 1 de Reglas de asociacin para aumentar el
promedio de veracidad.
Salida
.1
Evaluacin de los resultados de la minera de datos con respecto a los Factores
Crticos del xito.
.2
Modelos aprobados
Listar los modelos que cumplen con los criterios de xito con los que se evalu anteriormente
Ejemplos
.1
Evaluacin de los resultados de la minera de datos con respecto a los Factores
Crticos del xito.
Utilizando el algoritmo 1 de clusterizacin, se logr que, al contrastarlo con el Conjunto de
datos de prueba, se lograra el 69% de exactitud, cercano al 70% de los FCE.
Utilizando el algoritmo 2 de reglas de asociacin, se logr detectar 5 reglas de asociacin,
que, de ser implementadas por el departamento de marketting, lograran solo una mejora del
5% en la fidelidad de los clientes.
.1
Modelos aprobados
Se aprob el modelo de clusterizacin utilizado con el algoritmo 1.
Se rechaz el modelo de reglas de asociacin, dado que no cumple con los FCE.
Salida
.1
Revisin de procesos
Lista con las tareas que fueron olvidadas y que deben realizarse.
Ejemplos
.1
Revisin de procesos
Se revisaron los algoritmos utlizados para la deteccin de reglas de asocicin y se
consideraron otros algoritmos adicionales. Se detectaron fallas en la limpieza de datos, que
quitaban representatividad al resultado final.
De los algoritmos nuevos propuestos, se dicidi inlcuir el 3 a partir de que se logr mejorar
la calidad de los datos requeridos por ste.
Salida
.1
.2
Ejemplos
.1
.2
Salida
.1
Descripcin del plan de despliegue que incluye la sucesin de pasos a realizar y como hacerlos.
Ejemplos
.1
Salida
.1
Descripcin de los planes de monitoreo y mantenimiento que incluyen una lista de pasos a efectuar
y como realizar cada uno de ellos.
Ejemplos
.1
Salida
.1
Contiene la identificacin de los resultados obtenidos, la descripcin del proceso, los costos, las
desviaciones respecto del plan original, descripcin de planes de implementacin y
recomendaciones para el trabajo futuro.
.1
Ejemplos
.1
.2
Salida
.1
Ejemplos
.1