Tutorial Básico de Minería de Datos

TUTORIAL BSICO DE MINERA DE DATOS
Este es el Tutorial bsico de minera de datos de Microsoft SQL Server 2008 Analysis Services (SSAS).
Microsoft SQL Server proporciona un entorno integrado para crear modelos de minera de datos y trabajar
con ellos. En este tutorial, completar un escenario de una campaa de distribucin de correo directo en el
que se crean tres modelos para analizar el comportamiento de compra de los clientes y buscar a
compradores potenciales. El tutorial demuestra cmo utilizar los algoritmos de minera de datos, los visores
del modelo de minera de datos y las herramientas de minera de datos que se incluyen en MicrosoftSQL
ServerAnalysis Services. La compaa ficticia, Adventure Works Cycles, se utiliza en todos los ejemplos.
Cuando tenga ms confianza usando las herramientas de minera de datos, recomendamos que tambin
complete el Tutorial intermedio de minera de datos, que demuestra cmo utilizar la previsin, el anlisis
de la cesta de la compra, series temporales, modelos de asociacin, tablas anidadas y clsteres de
secuencias.

Escenario del tutorial
En este tutorial, ser un empleado de Adventure Works Cycles con la tarea de obtener ms informacin
sobre los clientes de la compaa basndose en el historial de compras y utilizando a continuacin esos
datos histricos para realizar predicciones que se puedan utilizar en el mercado. La compaa no ha
trabajado previamente con minera de datos, por lo que debe crear una nueva base de datos especfica
para minera de datos y configurar varios modelos de minera de datos.

Aprendizaje
Este tutorial le ensear a crear diferentes tipos de modelos de minera de datos y a trabajar con ellos.
Tambin ensea cmo crear una copia de un modelo de minera de datos y aplicarle un filtro. A
continuacin, procesa el modelo nuevo y lo evala usando un grfico de mejora respecto al modelo
predictivo. Cuando el modelo est completo, utiliza la obtencin de detalles para recuperar los datos
adicionales de la estructura de minera de datos subyacente.
En SQL Server 2008, Microsoft proporciona varias caractersticas nuevas que ayudan a desarrollar modelos
de minera de datos personalizados y usar los resultados ms eficazmente.
Conjuntos de pruebas de parmetros de exclusin: al crear una estructura de minera de datos,
ahora puede dividir los datos de la estructura en conjuntos de prueba y de entrenamiento.
Filtros de modelo de minera de datos: ahora puede asociar filtros a un modelo de minera de datos
y aplicar el filtro durante el entrenamiento y tambin en las pruebas.
Obtencin de detalles para casos de estructura y columnas de estructura: ahora puede pasar con
facilidad de los patrones generales del modelo de minera de datos al detalle procesable en el
origen de datos.

El tutorial est compuesto por las lecciones siguientes:

Leccin 1: Preparar la base de datos de Analysis Services (tutorial bsico de minera de datos)
En esta leccin, aprender a crear una nueva base de datos de Analysis Services, agregar un origen
de datos y una vista de origen de datos, y preparar la nueva base de datos que se va a utilizar para
la minera de datos.

Leccin 2: Generar una estructura de distribucin de correo directo (Tutorial bsico de minera de datos)
En esta leccin, aprender a crear una estructura de modelos de minera de datos que se puede
utilizar como parte de un escenario de distribucin de correo directo.

Leccin 3: Agregar y procesar los modelos
En esta leccin obtendr informacin sobre cmo agregar modelos a una estructura. Los modelos
que crea se generan con los algoritmos siguientes:
rboles de decisin de Microsoft
Clsteres de Microsoft
Bayes naive de Microsoft
Leccin 4: Explorar los modelos de correo directo (tutorial bsico de minera de datos)
En esta leccin obtendr informacin sobre cmo explorar e interpretar los hallazgos de cada
modelo usando los visores.

Leccin 5: Probar los modelos (Tutorial bsico de minera de datos)
En esta leccin, realiza una copia de uno de los modelos de distribucin de correo directo, agrega
un filtro de modelo de minera de datos para restringir los datos de entrenamiento a un conjunto
determinado de clientes y, a continuacin, evala la viabilidad del modelo.

Leccin 6: Crear y trabajar con predicciones (Tutorial bsico de minera de datos)
En esta leccin final del Tutorial bsico de minera de datos, utiliza el modelo para predecir qu
clientes tienen ms probabilidad de comprar una bicicleta. A continuacin, obtiene detalles de los
casos subyacentes para conseguir informacin de contacto.

Requisitos
Asegrese de que los siguientes componentes estn instalados:
Microsoft SQL Server 2008
Microsoft SQL Server Analysis Services
La base de datos AdventureWorks2008.

LECCIN 1: PREPARAR LA BASE DE DATOS DE ANALYSIS SERVICES
(TUTORIAL BSICO DE MINERA DE DATOS)

Suponga que es un nuevo empleado de Adventure Works Cycles que se le ha encargado la tarea de disear
una aplicacin de inteligencia empresarial en SQL Server 2008. Adventure Works Cycles espera aprovechar
su experiencia en minera de datos de Analysis Services para descubrir informacin interesante y
procesable sobre las personas que han comprado bicicletas. Quieren que prevea qu clientes tienen ms
probabilidad de comprar una bicicleta en el futuro.
El diseo de esta aplicacin en SQL Server comienza por la creacin en Business Intelligence Development
Studio de un proyecto de SQL ServerAnalysis Services basado en una plantilla de proyecto de Analysis
Services. Despus de crear un proyecto de Analysis Services, tiene que definir uno o varios orgenes de
datos. A continuacin, definir una sola vista de los metadatos denominada vista de origen de datos, a
partir de las tablas y vistas seleccionadas en los orgenes de datos.
En esta leccin, crear un proyecto de Analysis Services, definir un solo origen de datos y agregar un
subconjunto de tablas a una vista de origen de datos. Esta leccin incluye las tareas siguientes:
Crear un proyecto de Analysis Services (Tutorial bsico de minera de datos)
Crear un origen de datos (Tutorial bsico de minera de datos)
Crear una vista del origen de datos (Tutorial bsico de minera de datos)

Primera tarea de la leccin
Crear un proyecto de Analysis Services (Tutorial bsico de minera de datos)
Cada proyecto de MicrosoftSQL ServerAnalysis Services define el esquema para los objetos de una
base de datos de Analysis Services individual. Una base de datos de Analysis Services contiene
estructuras de minera de datos y modelos de minera de datos, cubos OLAP (Procesamiento
analtico en lnea) y objetos complementarios tales como orgenes de datos y vistas de orgenes de
datos. En este tutorial se utilizar la base de datos AdventureWorksDW2008.
De forma predeterminada, Analysis Services utiliza la instancialocalhost para los proyectos nuevos.
Si est utilizando una instancia con nombre o un servidor diferente, debe crear y abrir el proyecto
primero y, a continuacin, cambiar el nombre de instancia.

Para crear un proyecto de Analysis Services
1. Abra Business Intelligence Development Studio.
2. En el men Archivo, seleccione Nuevo y haga clic enProyecto.
3. Compruebe que la opcin Proyectos de Business Intelligence est seleccionado en el
panel Tipos de proyecto.
4. Compruebe que Proyecto de Analysis Services est seleccionado en el panel Plantillas.
5. En el cuadro Nombre, escriba ASDataMining2008como nombre del nuevo proyecto.
6. Haga clic en Aceptar.

Para cambiar la instancia donde se almacenan los objetos de minera de datos
1. En Business Intelligence Development Studio, en el men Proyecto,
seleccione Propiedades.
2. En el lado izquierdo del panel Pginas de propiedades, en Propiedades de configuracin,
haga clic en Implementacin.
3. En el lado derecho del panel Pginas de propiedades, en Destino, compruebe que el
nombre de Servidor eslocalhost. Si usa una instancia diferente, escriba el nombre de la
instancia. Haga clic en Aceptar.

Crear un origen de datos (Tutorial bsico de minera de datos)
Un origen de datos es una conexin de datos que se almacena y se administra en el proyecto y se
implementa en la base de datos de MicrosoftSQL ServerAnalysis Services. El origen de datos
contiene los nombres del servidor y la base de datos donde residen los datos de origen, adems de
otras propiedades de conexin necesarias.

Importante
El nombre de la base de datos es AdventureWorksDW2008.

Para crear un origen de datos
1. En el Explorador de soluciones, haga clic con el botn secundario en la carpeta Orgenes de
datos y seleccione Nuevo origen de datos.
2. En la pgina de inicio del Asistente para orgenes de datos, haga clic en Siguiente.
3. En la pgina Seleccionar cmo definir la conexin, haga clic en Nueva para agregar una
conexin a la base de datos de Adventure Works.
4. En la lista Proveedor del Administrador de conexiones, seleccione OLE DB nativo\SQL
Server Native Client 10.0.
5. En el cuadro Nombre del servidor, escriba o seleccione el nombre del servidor en el que
instal Adventure Works DW2008.
Por ejemplo, escriba localhost, si la base de datos se hospeda en el servidor local.
6. En el grupo Iniciar sesin en el servidor, seleccioneUtilizar autenticacin de Windows.

Importante
Siempre que sea posible, los implementadores deberan utilizar la autenticacin de
Windows, ya que proporciona un mtodo de autenticacin ms seguro que la
autenticacin de SOL Server. Sin embargo, la autenticacin de SQL Server se
proporciona por motivos de compatibilidad con versiones anteriores.

7. En la lista Seleccione o escriba un nombre de base de datos,
seleccione AdventureWorksDW2008 y, a continuacin, haga clic en Aceptar.
8. Haga clic en Siguiente.
9. En la pgina Informacin de suplantacin, haga clic en Utilizar la cuenta de servicio y, a
continuacin, haga clic en Siguiente.
10. Observe que en la pgina Finalizacin del asistente, el origen de datos tendr el nombre
Adventure Works DW2008 de forma predeterminada.
11. Haga clic en Finalizar.
El nuevo origen de datos, Adventure Works DW2008, aparece en la carpeta Orgenes de
datos del Explorador de soluciones.

Crear una vista del origen de datos (Tutorial bsico de minera de datos)
Una vista del origen de datos se genera en un origen de datos y define un subconjunto de los datos
que rellenan un almacn de datos. De esta forma se puede modificar la estructura de los datos para
que sean ms significativos en el contexto del proyecto. Mediante el uso de vistas de origen de
datos, puede seleccionar las tablas relacionadas con un proyecto concreto, establecer relaciones
entre ellas e incorporar columnas calculadas y vistas con nombre sin modificar el origen de datos
original.

Para crear una vista de origen de datos
1. En el Explorador de soluciones, haga clic con el botn secundario en Vistas de origen de
datos y seleccioneNueva vista de origen de datos.
2. En la pgina de inicio del Asistente para vistas de origen de datos, haga clic en Siguiente.
3. En la pgina Seleccionar un origen de datos, enOrgenes de datos relacionales, seleccione
el origen de datos AdventureWorks DW2008 que cre en la ltima tarea. Haga clic
en Siguiente.
Nota
Si desea crear un nuevo origen de datos, haga clic en Nuevo origen de datos para
iniciar el Asistente para orgenes de datos.
4. En la pgina Seleccionar tablas y vistas, seleccione los objetos siguientes y, a continuacin,
haga clic en la flecha derecha para incluirlos en la nueva vista del origen de datos:
o ProspectiveBuyer (dbo): la tabla de compradores probables de una bicicleta
o vTargetMail (dbo): la vista de datos histricos sobre los compradores de una
bicicleta en el pasado
6. En la pgina Finalizando el asistente, la vista del origen de datos tendr el nombre
Adventure Works DW2008 de forma predeterminada. Cambie el nombre por Targeted
Mailing y, a continuacin, haga clic enFinalizar.
La nueva vista del origen de datos se abre en la fichaTargeted Mailing.dsv [Design].

LECCIN 2: GENERAR UNA ESTRUCTURA DE DISTRIBUCIN DE CORREO
DIRECTO (TUTORIAL BSICO DE MINERA DE DATOS)
El departamento de marketing de Adventure Works Cycles desea aumentar las ventas dirigiendo una
campaa de correo directo a clientes especficos. La base de datos de la empresa, AdventureWorks
DW2008, contiene una lista de clientes antiguos y otra de clientes nuevos potenciales. Mediante el anlisis
de los atributos de compradores anteriores de bicicletas, la empresa espera detectar los patrones que
posteriormente se aplicarn a los clientes potenciales. La empresa pretende utilizar los patrones
detectados para predecir qu clientes potenciales tienen ms probabilidades de comprar una bicicleta de
Adventure Works Cycles.
En esta leccin utilizar el Asistente para minera de datoscon el fin de crear la estructura de distribucin
de correo directo. Despus de completar las tareas de esta leccin, tendr una estructura de minera de
datos con un modelo sencillo. Dado que la creacin de una estructura conlleva muchos pasos y conceptos
importantes, hemos separado este proceso en las tres tareas siguientes:
Crear una estructura del modelo de minera de datos de distribucin de correo directo (Tutorial
bsico de minera de datos)
Especificar el tipo de datos y el tipo de contenido (Tutorial bsico de minera de datos)
Especificar un conjunto de datos de pruebas para la estructura (Tutorial bsico de minera de datos)

Primera tarea de la leccin
Crear una estructura del modelo de minera de datos de distribucin de correo directo (Tutorial bsico de
minera de datos)

Crear una estructura del modelo de minera de datos de distribucin de
correo directo (Tutorial bsico de minera de datos)
El primer paso para crear un escenario de correo directo (Targeted Mailing) consiste en utilizar el
Asistente para minera de datos de Business Intelligence Development Studio con el fin de crear
una estructura de minera de datos y un modelo de minera de datos de rbol de decisin.
En esta tarea crear la estructura de minera de datos inicial, basada en el algoritmo de rboles de
decisin de Microsoft. Para crear la estructura, primero seleccionar las tablas y vistas, y a
continuacin identificar qu columnas se utilizarn para el entrenamiento y cules para pruebas.
Para crear una estructura de minera de datos para un escenario de distribucin de correo directo
1. En el Explorador de soluciones, haga clic con el botn secundario en Estructuras de minera
de datos y seleccione Nueva estructura de minera de datos para iniciar el Asistente para
minera de datos.
2. En la pgina de inicio del Asistente para minera de datos, haga clic en Siguiente.
3. En la pgina Seleccionar el mtodo de definicin, compruebe que la opcin A partir de una
base de datos relacional o un almacn de datos se ha seleccionado y, a continuacin, haga
clic en Siguiente.
4. En la pgina Crear la estructura de minera de datos, en Qu tcnica de minera de datos
desea utilizar?, seleccione rboles de decisin de Microsoft.
Nota
Si aparece una advertencia de que no se puede encontrar ningn algoritmo de minera de datos,
puede que las propiedades del proyecto no estn configuradas correctamente. Esta advertencia
se produce cuando el proyecto intenta recuperar una lista de algoritmos de minera de datos del
servidor de Analysis Services y no puede encontrarlo. De forma predeterminada, BI Development
Studio utilizar el host local como servidor. Si est utilizando una instancia diferente o una
instancia con nombre, debe cambiar las propiedades del proyecto.
6. En la pgina Seleccionar vista del origen de datos, en el panel Vistas del origen de datos
disponibles, seleccione Targeted Mailing. Puede hacer clic en Explorar para ver las tablas
de la vista del origen de datos y, a continuacin, hacer clic en Cerrar para volver al
asistente.
8. En la pgina Especificar tipos de tablas, active la casilla de la columna Caso,
correspondiente a vTarget Mail para usarla como tabla de casos y, a continuacin, haga clic
en Siguiente. Utilizar la tabla Prospective Buyer posteriormente para pruebas; psela por
alto por ahora.
9. En la pgina Especificar los datos de aprendizaje, identificar al menos una columna de
prediccin, una columna de clave y una columna de entrada para el modelo. Active la
casilla de la columna De prediccin en la fila Bike Buyer.
Nota
Observe la advertencia en la parte inferior de la ventana. No podr navegar a la pgina siguiente
hasta que seleccione una columna De prediccin y Entrada, como mnimo.
10. Haga clic en Sugerir para abrir el cuadro de dilogo Sugerir columnas relacionadas.
El botn Sugerir est habilitado siempre que se haya seleccionado al menos un atributo
predecible. El cuadro de dilogo Sugerir columnas relacionadas enumera en una lista las
columnas ms relacionadas con la columna predecible y ordena los atributos por su
correlacin con el atributo predecible. Las columnas con una correlacin significativa (con
una confianza mayor del 95%) se seleccionan automticamente para incluirse en el modelo.
Revise las sugerencias y, a continuacin, haga clic en Cancelar para omitirlas.
Nota
Si hace clic en Aceptar, todas las sugerencias enumeradas se marcarn como columnas de
entrada en el asistente. Si est de acuerdo slo con algunas de las sugerencias, debe cambiar los
valores manualmente.
11. Compruebe que la casilla de la columna Key est seleccionada en la fila CustomerKey.
Nota
Si la tabla de origen de la vista de origen de datos muestra una clave, el Asistente para minera de
datos elegir automticamente esa columna como clave para el modelo.
12. Active las casillas de la columna Entrada en las filas siguientes. Puede activar varias
columnas resaltando un rango de celdas y presionando CTRL mientras activa una casilla.
o Age
o CommuteDistance
o EnglishEducation
o EnglishOccupation
o Gender
o GeographyKey
o HouseOwnerFlag
o MaritalStatus
o NumberCarsOwned
o NumberChildrenAtHome
o Region
o TotalChildren
o YearlyIncome
13. En la columna izquierda de la pgina, active las casillas de las filas siguientes.
o AddressLine1
o AddressLine2
o DateFirstPurchase
o EmailAddress
o FirstName
o LastName.
Asegrese de que estas filas slo tienen marcas en la columna izquierda. Estas columnas se
agregarn a la estructura pero no se incluirn en el modelo. Sin embargo, una vez generado
el modelo, estarn disponibles para la obtencin de detalles y las pruebas.

Especificar el tipo de datos y el tipo de contenido (Tutorial bsico de minera
de datos)
Ahora que ha seleccionado qu columnas utilizar para generar la estructura y entrenar los modelos,
realice los cambios necesarios en los datos predeterminados y tipos de contenido que establece el
asistente.
Revisar y modificar el tipo de contenido y el tipo de datos de cada columna
1. En la pgina Especificar el contenido y el tipo de datos de las columnas, haga clic
en Detectar para ejecutar un algoritmo que determine los tipos de contenido y los datos
predeterminados de cada columna.
2. Revise las entradas de las columnas Tipo de contenido y Tipo de datos, y cmbielas si es
necesario para asegurarse de que la configuracin es igual que la que se muestra en la tabla
siguiente.
Normalmente, el asistente detectar nmeros y asignar un tipo de datos numrico
adecuado, pero hay varias situaciones en las que podra desear tratar un nmero como
texto. Por ejemplo, GeographyKey se debera tratar como texto, porque no sera apropiado
realizar operaciones matemticas en este identificador.
Columna Tipo de contenido Tipo de datos
Address Line1 Discrete Text
Address Line2 Discrete Text
Age Continuous Long
Bike Buyer Discrete Long
Commute Distance Discrete Text
CustomerKey Key Long
DateLastPurchase Continuous Date
Email Address Discrete Text
English Education Discrete Text
English Occupation Discrete Text
FirstName Discrete Text
Gender Discrete Text
Geography Key Discrete Text
House Owner Flag Discrete Text
Last Name Discrete Text
Marital Status Discrete Text
Number Cars Owned Discrete Long
Number Children At Home Discrete Long
Region Discrete Text
Total Children Discrete Long
Yearly Income Continuous Double

Especificar un conjunto de datos de pruebas para la estructura (Tutorial
bsico de minera de datos)
En las pantallas finales del Asistente para minera de datos dividir los datos en un conjunto de
pruebas y en un conjunto de entrenamiento. Despus, denominar su estructura y habilitar la
obtencin de datos en el modelo.
Especificar un conjunto de pruebas
Al separar los datos en conjuntos de entrenamiento y de pruebas cuando se crea una estructura de
minera de datos, es posible evaluar inmediatamente la exactitud de los modelos de minera de
datos que se crean despus.
Para especificar el conjunto de pruebas
1. En la pgina Crear conjunto de pruebas, enPorcentaje de datos para pruebas, deje el valor
predeterminado 30.
2. En Nmero mximo de casos en el conjunto de datos de prueba, escriba 1000.
Especificar la obtencin de detalles
La obtencin de detalles puede habilitarse en los modelos y en las estructuras. La casilla de esta
ventana habilita la obtencin de detalles en el modelo con nombre y le permite recuperar
informacin detallada de los casos del modelo que se usaron para entrenarlo.
Si la estructura de minera de datos subyacente tambin se ha configurado para permitir la
obtencin de detalles, puede recuperar informacin detallada de los casos de modelos y de la
estructura, incluyendo las columnas que no estaban incluidas en el modelo de minera de datos.
Para denominar el modelo y la estructura, y especificar la obtencin de detalles
1. En la pgina Finalizacin del asistente, en Nombre de la estructura de minera de datos,
escriba Targeted Mailing.
2. En Nombre del modelo de minera de datos, escriba TM_Decision_Tree.
3. Active la casilla Permitir obtencin de detalles.
4. Revise el panel Vista previa. Observe que se muestran slo las columnas seleccionadas
como Clave, Entrada o De prediccin. Las otras columnas que seleccion (por ejemplo,
AddressLine1) no se utilizan para generar el modelo, pero estarn disponibles en la
estructura subyacente y se pueden consultar una vez procesado e implementado el
modelo.
5. Haga clic en Finalizar.

LECCIN 3: AGREGAR Y PROCESAR LOS MODELOS
La estructura de minera de datos que cre en la leccin anterior contiene un modelo de minera de datos
individual que se basa en el algoritmo de rboles de decisin de Microsoft. Para identificar a los clientes
para la distribucin de correo directo, crear dos modelos adicionales y, a continuacin, procesar e
implementar los modelos.
En esta leccin, crear un conjunto de modelos de minera de datos que sugerir los clientes que tienen
una mayor probabilidad de serlo entre una lista de clientes potenciales.
Para completar las tareas de esta leccin, utilizar elAlgoritmo de clsteres de Microsoft y el Algoritmo
Bayes naive de Microsoft.
Esta leccin incluye las tareas siguientes:
Agregar modelos nuevos a la estructura de correo de destino (tutorial bsico de minera de datos)
Procesar los modelos de la estructura de distribucin de correo directo (Tutorial bsico de minera
de datos)

Agregar modelos nuevos a la estructura de correo de destino (tutorial bsico
de minera de datos)
En esta tarea, definirn dos modelos adicionales mediante la ficha Modelos de minera de
datos del Diseador de minera de datos. Para crear los modelos, se usarn el algoritmo Bayes
naive y el algoritmo de clsteres de Microsoft. Estos dos algoritmos se han seleccionado debido a
su capacidad de predecir un valor discreto (por ejemplo, la compra de una bicicleta).
Dado que esta tarea se genera una vez que el trabajo de la tarea anterior se ha completado, se
recomienda completar este tutorial en orden.
Para crear un modelo de minera de datos de agrupacin en clsteres
1. Cambie a la ficha Modelos de minera de datos del Diseador de minera de datos en
Business Intelligence Development Studio.
Observe que el diseador muestra dos columnas: una para la estructura de minera de
datos y otra para el modelo de minera de datos TM_Decision_Tree, que cre en la tarea
anterior de esta leccin.
2. Haga clic con el botn secundario en la columna Estructura y seleccione Nuevo modelo de
minera de datos.
3. En el cuadro de dilogo Nuevo modelo de minera de datos, en Nombre del modelo,
escribaTM_Clustering.
4. En Nombre del algoritmo, seleccione Agrupacin en clsteres de Microsoft.
Ahora aparece el modelo nuevo en la ficha Modelos de minera de datos del Diseador de minera
de datos. Este modelo, integrado con el algoritmo de clsteres de Microsoft, agrupa los clientes con
caractersticas similares en clsteres y predice la compra de una bicicleta en cada clster. Aunque
puede modificar el uso y las propiedades de la columna para el modelo nuevo, en este tutorial no
es necesario hacer cambios en el modelo TM_Clustering.
Para crear un modelo de minera de datos Bayes naive
1. En la ficha Modelos de minera de datos del Diseador de minera de datos, haga clic con el
botn secundario enla columna Estructura y seleccioneNuevo modelo de minera de
datos.
2. En el cuadro de dilogo Nuevo modelo de minera de datos, en Nombre del modelo,
escribaTM_NaiveBayes.
3. En Nombre del algoritmo, seleccione Bayes naive de Microsoft y haga clic en Aceptar.
Aparece un mensaje que indica que el algoritmo Bayes naive de Microsoft no admite las
columnas Age yYearly Income, que son continuas.
4. Haga clic en S para confirmar el mensaje y continuar.
Aparece un modelo nuevo en la ficha Modelos de minera de datos del Diseador de minera de
datos. Aunque puede modificar el uso y las propiedades de las columnas para todos los modelos de
la ficha, en este tutorial no es necesario hacer cambios en el modelo TM_NaiveBayes.

Procesar los modelos de la estructura de distribucin de correo directo
(Tutorial bsico de minera de datos)
Para poder examinar o trabajar con los modelos de minera de datos que ha creado, se debe
implementar el proyecto de Analysis Services y procesar la estructura y los modelos de minera de
datos. En la implementacin se enva el proyecto a un servidor y se crean en el servidor los objetos
de ese proyecto. El procesamiento es el paso, o la serie de pasos, que rellena los objetos de Analysis
Services con datos de orgenes de datos relacionales. Los modelos no se pueden utilizar hasta que
se hayan implementado y procesado.
Asegurarse de la coherencia con HoldoutSeed
Al implementar un proyecto y procesar la estructura y los modelos, a las filas individuales de la
estructura de datos se les asigna de forma aleatoria el conjunto de pruebas y entrenamiento a
partir de un valor de inicializacin del nmero aleatorio. Normalmente, el valor de inicializacin del
nmero aleatorio se calcula con los atributos de la estructura de datos. Teniendo en cuenta los
fines de este tutorial, para asegurarse de que los resultados son los mismos que los descritos aqu,
asignaremos arbitrariamente un valor de inicializacin de exclusin fijo de12. El valor de
inicializacin de exclusin se utiliza para inicializar el muestreo aleatorio y asegurarse de que los
datos se dividen aproximadamente de la misma manera para todas las estructuras de minera de
datos y sus modelos.
Este valor no afecta al nmero de casos del conjunto de entrenamiento; sino que sirve para
asegurarse de que la particin se puede repetir.
Para establecer el valor de inicializacin de exclusin
1. Haga clic en la ficha Estructuras de minera de datos o Modelos de minera de datos en el
Diseador de minera de datos de Business Intelligence Development Studio.
Estructura de minera de datos Targeted Mailing aparece en el panel Propiedades.
2. Asegrese de que el panel Propiedades est abierto presionando F4.
3. Asegrese de que CacheMode est establecido enKeepTrainingCases.
4. Escriba 12 en HoldoutSeed.
Implementar y procesar los modelos
En el Diseador de minera de datos, puede procesar una estructura de minera de datos, un
modelo de minera de datos especfico que est asociado a una estructura de minera de datos, o
bien procesar la estructura y todos los modelos que estn asociados a esa estructura. Para esta
tarea, procesaremos la estructura y todos los modelos al mismo tiempo.
Para implementar el proyecto y procesar todos los modelos de minera de datos
1. En el men Modelo de minera de datos, seleccione Procesar estructura de minera de
datos y todos los modelos.
Si ha realizado cambios en la estructura, se le pedir que genere e implemente el proyecto
antes de procesar los modelos. Haga clic en S.
2. En el cuadro de dilogo Procesando estructura de minera de datos: Targeted Mailing,
haga clic enEjecutar.
Se abre el cuadro de dilogo Progreso del proceso para mostrar los detalles del
procesamiento del modelo. El procesamiento del modelo podra tardar algn tiempo,
segn el equipo.
3. Haga clic en Cerrar en el cuadro de dilogo Progreso del proceso cuando el procesamiento
de los modelos se haya completado.
4. Haga clic en Cerrar en el cuadro de dilogo Procesando estructura de minera de datos -
<estructura>.
Hay varias maneras de procesar un modelo y una estructura

LECCIN 4: EXPLORAR LOS MODELOS DE CORREO DIRECTO (TUTORIAL
BSICO DE MINERA DE DATOS)
Una vez procesados los modelos en su proyecto, puede examinarlos en Business Intelligence Development
Studio para buscar tendencias interesantes. Como los resultados de los modelos de minera de datos son
complejos y pueden resultar difciles de comprender sin formato, examinar los datos visualmente suele ser
la manera ms fcil de entender las reglas y relaciones que los algoritmos descubren en los datos. La
exploracin le ayudar a entender tambin el comportamiento del modelo y a detectar qu modelo se
comporta mejor antes de implementarlo.

Cada modelo creado se muestra en la ficha Visor de modelos de minera de datos en el Diseador de
minera de datos. Cada algoritmo utilizado para crear un modelo en Analysis Services devuelve un tipo de
resultado diferente. Por consiguiente, Analysis Services proporciona un visor independiente para cada
algoritmo. Analysis Services proporciona tambin un visor genrico que funciona con todos los tipos de
modelo. El Visor de rbol de contenido genrico muestra informacin detallada sobre el contenido del
modelo, que vara en funcin del algoritmo utilizado.

En esta leccin examinar los mismos datos utilizando los tres modelos. Cada tipo de modelo se basa en un
algoritmo diferente y proporciona visiones diferentes de los datos. El modelo rbol de decisin le indica los
factores que influyen en la compra de bicicletas. El modelo Agrupacin en clsteres agrupa los clientes por
atributos, como el comportamiento de compra de bicicletas y otros atributos seleccionados. El modelo
Bayes naive le permite examinar las relaciones entre los diferentes atributos. Por ltimo, el Visor de rbol
de contenido genrico muestra la estructura del modelo y proporciona datos ms detallados como las
frmulas, los patrones extrados y un recuento de casos en un clster o rbol determinado.

Haga clic en los temas siguientes para examinar los visores del modelo de minera.

Explorar el modelo de rbol de decisin (tutorial bsico de minera de datos)
Explorar el modelo de agrupacin en clsteres (Tutorial bsico de minera de datos)
Explorar el modelo Bayes naive (Tutorial bsico de minera de datos)

El algoritmo de rboles de decisin de Microsoft predice qu columnas influyen en la decisin de
comprar una bicicleta en funcin de las columnas restantes del conjunto de entrenamiento.
El Visor de rbol de decisin de Microsoft proporciona las fichas siguientes para la exploracin de
los modelos de minera de datos de rbol de decisin:
o rbol de decisin
o Red de dependencias
En las secciones siguientes se describe cmo seleccionar el visor adecuado y explorar los otros
modelos de minera de datos.
El algoritmo de agrupacin en clsteres de Microsoft agrupa los casos en clsteres que
contienen caractersticas similares. Estas agrupaciones son tiles para la exploracin de
datos, la identificacin de anomalas en los datos y la creacin de predicciones.
El Visor de clsteres de Microsoft ofrece las siguientes fichas para la exploracin de
modelos de minera de datos de agrupacin en clsteres:
Diagrama del clster
Perfiles del clster
Caractersticas del clster
Distincin del clster
En las secciones siguientes se describe cmo seleccionar el visor adecuado y explorar los
otros modelos de minera de datos.
Ficha Diagrama del clster
La ficha Diagrama del clster muestra todos los clsteres de un modelo de minera de
datos. Las lneas entre los clsteres representan la "proximidad" y aparecen sombreadas en
funcin de la similitud entre los clsteres. El color de cada clster representa la frecuencia
de la variable y el estado del clster.
Para explorar el modelo en la ficha Diagrama del clster
1. Utilice la lista Modelo de minera de datos de la parte superior de la ficha Visor de
modelos de minera de datos para cambiar al modeloTM_Clustering.
2. En la lista Visor, seleccione Visor de clsteres de Microsoft.
3. En el cuadro Variable de sombreado, seleccioneBike Buyer.
La variable predeterminada es Poblacin, pero puede cambiarla a cualquier
atributo del modelo con el fin de determinar los clsteres que contienen miembros
con los atributos que desea.
4. Seleccione 1 en el cuadro Estado para explorar esos casos donde se compr una
bicicleta.
La leyenda Densidad describe la densidad del par de estados del atributo que se
selecciona en Variable de sombreado y Estado. En este ejemplo se indica que el
clster con el sombreado ms oscuro tiene el porcentaje superior de compradores
de bicicleta.
5. Pause su mouse sobre el clster con el sombreado ms oscuro.
Una informacin sobre herramientas muestra el porcentaje de casos que tienen el
atributo, Bike Buyer = 1.
6. Elija el clster con mayor densidad, haga clic con el botn secundario en l,
seleccione Cambiar nombre de clster y escriba Bike Buyers High para una
identificacin posterior. Haga clic en Aceptar.
7. Busque el clster que tiene el sombreado ms ligero (y la densidad ms baja). Haga
clic con el botn secundario en el clster, seleccione Cambiar nombre de clster y
escriba Bike Buyers Low. Haga clic en Aceptar.
8. Haga clic en el clster Bike Buyers High y arrstrelo hacia una rea del panel que le
dar una vista clara de sus conexiones a los otros clsteres.
Al seleccionar un clster, se resaltan las lneas que conectan este clster con otros
para que pueda ver todas las relaciones existentes para el mismo. Cuando el clster
no est seleccionado, puede saber por la oscuridad de las lneas la intensidad de las
relaciones entre todos los clsteres del diagrama. Si el sombreado es claro o
inexistente, los clsteres no son muy similares.
9. Use el control deslizante situado en la parte izquierda de la red para filtrar los
vnculos de menor intensidad y encontrar los clsteres con las relaciones ms
prximas. El departamento comercial de Adventure Works Cycles podra desear
combinar los clsteres similares al determinar el mejor mtodo para entregar el
envo de correo directo.
Ficha Perfiles del clster
La ficha Perfiles del clster proporciona una vista global del modelo TM_Clustering. La
ficha Perfiles del clstercontiene una columna para cada clster del modelo. La primera
columna enumera los atributos asociados a un clster como mnimo. El resto del visor
contiene la distribucin de estados de un atributo por cada clster. La distribucin de una
variable discreta se muestra como una barra coloreada y el nmero mximo de barras
aparece en la lista Barras de histograma. Los atributos continuos se muestran con un
diagrama de rombo, que representa la desviacin media y estndar en cada clster.
Para explorar el modelo en la ficha Perfiles del clster
1. Establezca las barras Histograma en 5.
En nuestro modelo, 5 es el nmero mximo de estados para cualquier variable.
2. Si la Leyenda de minera de datos bloquea la presentacin de los Perfiles del
atributo, retrela.
3. Seleccione la columna Bike Buyers High y arrstrela hacia la derecha de la
columna Poblacin
4. Seleccione la columna Bike Buyers Low y arrstrela a la derecha de la
columna Bike Buyers High.
5. Haga clic en la columna Bike Buyers High.
La columna Variables est ordenada por orden de importancia para ese clster.
Desplcese por la columna y revise las caractersticas del clster Bike Buyer High.
Por ejemplo, es muy probable que en todas ellas la caracterstica comn sea que la
distancia al trabajo sea corta.
6. Haga doble clic en la celda Age en la columnaBike Buyers High.
Leyenda de minera de datos muestra una vista ms detallada donde se puede ver
el intervalo de edad de esos clientes as como su edad media.
7. Haga clic con el botn secundario en la columnaBike Buyers Low y
seleccione Ocultar columna.
Ficha Caractersticas del clster
La ficha Caractersticas del clster le permite examinar con ms detalle las caractersticas
que forman un clster. En lugar de comparar las caractersticas de todos los clsteres (como
en la ficha Perfiles del clster), puede explorar un clster a la vez. Por ejemplo, si
seleccionaBike Buyers High en la lista Clster puede ver las caractersticas de los clientes en
este clster. Aunque la presentacin es diferente del visor Perfiles del clster, los resultados
son los mismos.
Nota
A menos que establezca un valor inicial paraholdoutseed, los resultados variarn cada
vez que procese el modelo.
Ficha Distincin del clster
La ficha Distincin del clster le permite explorar las caractersticas que diferencian a un
clster de otro. Despus de seleccionar dos clsteres, uno de la listaClster 1 y otro de la
lista Clster 2, el visor calcula las diferencias existentes entre los clsteres y muestra una
lista de los atributos que ms distinguen a los clsteres.
Para explorar el modelo en la ficha Distincin del clster
1. En el cuadro Clster 1, seleccioneBike Buyers High.
2. En el cuadro Clster 2, seleccione Bike Buyers Low.
3. Haga clic en Variables para ordenar alfabticamente.
Algunas de las diferencias sustanciales entre clientes de los
clsteres Bike Buyers Low yBike Buyers High son la edad, la posesin de un vehculo, el
nmero de hijos y la regin.

El algoritmo Bayes naive de Microsoft proporciona varios mtodos para mostrar la
interaccin entre los atributos de entrada y la compra de bicicletas.
El Visor Naive Bayes de Microsoft ofrece las siguientes fichas para la exploracin de
modelos de minera de datos Bayes naive:
Dependency Network
Attribute Profiles
Attribute Characteristics
Attribute Discrimination
Las secciones siguientes describen cmo explorar los dems modelos de minera de datos.
Red de dependencias
La ficha Red de dependencias funciona igual que la ficha del mismo nombre del Visor de
rboles de Microsoft. Cada nodo del visor representa un atributo y las lneas entre los
nodos representan relaciones. En el visor, puede ver todos los atributos que afectan al
estado del atributo de prediccin, Bike Buyer.
Para explorar el modelo en la ficha Red de dependencias
1. Utilice la lista Modelo de minera de datos de la parte superior de la ficha Visor de
modelos de minera de datos para cambiar al modeloTM_NaiveBayes.
2. Utilice la lista Visor para cambiar a Visor Bayes naive de Microsoft.
3. Haga clic en el nodo Bike Buyer para identificar sus dependencias.
El sombreado rosa indica que todos los atributos influyen en la compra de
bicicletas.
4. Ajuste el control deslizante para identificar el atributo ms influyente.
Conforme baja el control deslizante, slo permanecen los atributos que afectan en
mayor medida a la columna [Bike Buyer]. Ajustando el control deslizante, puede
detectar que algunos de los atributos ms influyentes son el nmero de
automviles que se posee, la distancia al lugar de trabajo y el nmero total de hijos.
Perfiles del atributo
La ficha Perfiles del atributo describe la forma en que los diferentes estados de los
atributos de entrada afectan al resultado del atributo de prediccin.
Para explorar el modelo en la ficha Perfiles del atributo
1. En el cuadro De prediccin, compruebe que se ha seleccionado Bike Buyer.
2. Si la Leyenda de minera de datos est evitando la presentacin de los Perfiles del
atributo, retrela.
3. En el cuadro de barras Histograma, seleccione 5.
En nuestro modelo, 5 es el nmero mximo de estados para cualquier variable.
Los atributos que afectan al estado de este atributo de prediccin aparecen
enumerados junto a los valores de cada estado de los atributos de entrada y sus
distribuciones en cada estado del atributo de prediccin.
4. En la columna Atributos, busque Number Cars Owned. Observe las diferencias en
los histogramas de los compradores de bicicletas (la columna con la etiqueta 1) y
los no compradores (la columna con la etiqueta 0). Una persona que no tenga
automvil o que tenga uno tiene mucha ms probabilidad de comprar una bicicleta.
5. Haga doble clic en la celda Number Cars Owned en la columna de comprador de
bicicletas (la columna con la etiqueta 1).
La Leyenda de minera de datos muestra una vista ms detallada.

Caractersticas del atributo
Mediante la ficha Caractersticas del atributo, puede seleccionar un atributo y un valor
para ver la frecuencia con la que aparecen los valores de otros atributos en el caso de los
valores seleccionados.
Para explorar el modelo en la ficha Caractersticas del atributo
1. En la lista Atributo, compruebe que Bike Buyer est seleccionado.
2. Establezca el Valor en 1.
En el visor, ver que los clientes que no tienen ningn hijo conviviendo con ellos,
una distancia corta al trabajo y que viven en la regin de Norteamrica tienen ms
probabilidad de comprar una bicicleta.

Distincin del atributo
La ficha Distincin del atributo le permite examinar las relaciones entre dos valores
discretos de la compra de una bicicleta y otros valores del atributo. Dado que el
modeloTM_NaiveBayes slo tiene dos estados, 1 y 0, no tiene que hacer ningn cambio en
el visor.
En el visor, podr ver que las personas que no tienen un automvil tienden a comprar
bicicletas y las personas que tienen dos no suelen comprarlas.

Ficha rbol de decisin
En la ficha rbol de decisin, puede examinar los tres modelos de rbol que componen un modelo
de minera de datos.
Dado que el modelo de correo directo incluido en este proyecto de tutorial contiene un nico
atributo de prediccin, Bike Buyer, slo se puede ver un rbol. Si hubiera ms rboles, podra
utilizar el cuadro rbol para elegir uno diferente.
Al examinar el modelo TM_Decision_Tree en el Visor de rbol de decisin observamos que la edad
es el nico factor ms importante a la hora de predecir la compra de bicicletas. Es interesante ver
que al agrupar los clientes por edad, la siguiente rama del rbol es diferente para cada nodo de
edad. Al explorar la ficha rbol de decisin podemos concluir que los compradores con una edad
comprendida entre 34 y 40 aos con uno o varios automviles tienen ms probabilidades de
comprar una bicicleta, al igual que los clientes jvenes y solteros que viven en la regin del Pacfico
y que no tienen automvil o tienen uno.
Para explorar el modelo en la ficha rbol de decisin
1. Seleccione la ficha Visor de modelo de minera de datos en Diseador de minera de
datos.
De forma predeterminada, el diseador se abre en el primer modelo que se agreg a la
estructura (en este caso, TM_Decision_Tree).
2. Utilice los botones de lupa para ajustar el tamao de presentacin del rbol.
De manera predeterminada, el Visor de rboles de Microsoft slo muestra los primeros tres
niveles del rbol. Si el rbol contiene menos de tres niveles, el visor mostrar slo los
niveles existentes. Puede ver ms niveles si utiliza el control deslizante Mostrar nivel o la
lista Expansin predeterminada.
3. Deslice Mostrar nivel hasta la cuarta barra.
4. Cambie el valor de la lista Fondo a 1.
Al cambiar la configuracin de Fondo, podr ver rpidamente el nmero de casos de cada
nodo que tienen el valor de destino de 1 para [Bike Buyer]. Recuerde que en este escenario
en concreto, cada caso representa un cliente. El valor 1 indica que el cliente compr
anteriormente una bicicleta; el valor0 indica que el cliente no ha comprado una bicicleta.
Cuanto ms oscuro sea el sombreado del nodo, mayor ser el porcentaje de casos del nodo
que tienen el valor de destino.
5. Coloque el cursor sobre el nodo Todos. Se mostrar informacin sobre herramientas con
los siguientes datos:
o Nmero total de casos
o Nmero de casos de personas que no han comprado bicicletas
o Nmero de casos de personas que han comprado bicicletas
o Nmero de casos con valores que faltan para [Bike Buyer]
Tambin puede colocar el cursor sobre cualquier nodo del rbol para ver la condicin
necesaria para alcanzar ese nodo desde el nodo anterior. Esa misma informacin se puede
ver tambin en la Leyenda de minera de datos.
6. Haga clic en el nodo de Edad >= 34 y < 41. El histograma se muestra como una barra
horizontal delgada a lo largo del nodo y representa la distribucin de los clientes con este
intervalo de edad que anteriormente compraron (rosa) o no compraron (azul) una bicicleta.
El visor nos muestra que es probable que los clientes con edades comprendidas entre 34 y
40 aos sin automvil o con uno compren una bicicleta. Si vamos un poco ms lejos, vemos
que la probabilidad de comprar una bicicleta aumenta si el cliente tiene una edad
comprendida entre 38 y 40 aos.
Como habilit la obtencin de detalles cuando cre la estructura y el modelo, puede recuperar
informacin detallada de los casos del modelo y de la estructura de minera de datos, incluidas las
columnas que no se incluyeron en el modelo de minera de datos (por ejemplo, email Address y
First Name).
Para obtener informacin detallada de los datos del caso
1. Haga clic con el botn secundario en un nodo y seleccione Obtener detalles y Slo
columnas de modelos.
Los detalles de cada caso de entrenamiento se muestran en formato de hoja de clculo.
Estos detalles proceden de la vista vTargetMail que seleccion como la tabla de casos al
generar la estructura de minera de datos.
2. Haga clic con el botn secundario en un nodo y seleccione Obtener detalles y Columnas de
modelo y estructura.
Se muestra la misma hoja de clculo con las columnas de estructura anexadas al final.

Ficha Red de dependencias
La ficha Red de dependencias muestra las relaciones entre los atributos que contribuyen a la
capacidad de prediccin del modelo de minera de datos. El visor Red de dependencias reafirma
nuestra conclusin de que la edad y la regin son factores importantes para predecir la compra de
bicicletas.
Para explorar el modelo en la ficha Red de dependencias
1. Haga clic en el nodo Bike Buyer para identificar sus dependencias.
El nodo central de la red de dependencias, Bike Buyer, representa el atributo de prediccin
del modelo de minera de datos. El sombreado rosa indica que todos los atributos influyen
en la compra de bicicletas.
2. Ajuste el control deslizante Todos los vnculos para identificar el atributo ms influyente.
Conforme baja el control deslizante, slo permanecen los atributos que afectan en mayor
medida a la columna [Bike Buyer]. Ajustando el control deslizante, descubrir que la edad y
la regin son los factores ms importantes para predecir si alguien ha comprado una
bicicleta.

LECCIN 5: PROBAR LOS MODELOS (TUTORIAL BSICO DE MINERA DE
DATOS)
Ahora que ha procesado el modelo utilizando el conjunto de entrenamiento del escenario de distribucin
de correo directo, probar sus modelos con el conjunto de pruebas. Dado que los datos del conjunto de
pruebas ya contienen valores conocidos para la compra de bicicletas, es fcil determinar si las predicciones
del modelo son correctas. El departamento de marketing de Adventure Works Cycles usar el modelo que
mejor se comporte para identificar a los clientes para su campaa de distribucin de correo directo.
En esta leccin probar primero sus modelos realizando predicciones con el conjunto de pruebas. Luego,
probar sus modelos en un subconjunto filtrado de los datos. Analysis Services proporciona diversos
mtodos para determinar la exactitud de los modelos de minera de datos. En esta leccin examinaremos
un grfico de elevacin.
La validacin es un paso importante del proceso de minera de datos. Es importante conocer cmo se
comportan con datos reales los modelos de minera de datos de distribucin de correo directo antes de
implementarlos en un entorno de produccin.
Esta leccin incluye las tareas siguientes:
Probar la exactitud con grficos de elevacin (Tutorial bsico de minera de datos)
Probar un modelo filtrado (Tutorial bsico de minera de datos)

Probar la exactitud con grficos de elevacin (Tutorial bsico de minera de
datos)
En la ficha Grfico de precisin de minera de datos del Diseador de minera de datos, puede
calcular la precisin de las predicciones de sus modelos y comparar los resultados de diferentes
modelos. Este mtodo de comparacin se conoce como grfico de elevacin. Normalmente, la
exactitud de la prediccin de un modelo de minera de datos se cuantifica mediante la elevacin o
la exactitud de la clasificacin.
En este tema, realizar las tareas siguientes:
Elegir datos de entrada
Seleccionar modelos, columnas de prediccin y valores

Elegir los datos de entrada
El primer paso a la hora de probar la precisin de los modelos de minera de datos consiste en
seleccionar el origen de datos que usar para realizar las pruebas. Probar la exactitud de los
modelos con sus datos de prueba y, a continuacin, los utilizar con datos externos.

Para seleccionar el conjunto de datos
1. Cambie a la ficha Grfico de precisin de minera de datos del Diseador de minera de
datos de Business Intelligence Development Studio y seleccione la ficha Seleccin de
entrada.
2. En el cuadro de grupo Seleccionar un conjunto de datos para usarlo en un grfico de
precisin, seleccione Usar casos de prueba de estructura de minera de datos para probar
los modelos utilizando los datos de prueba que apart cuando cre la estructura de minera
de datos.
Seleccionar modelos, columnas de prediccin y valores
El siguiente paso consiste en seleccionar los modelos que desea incluir en el grfico de elevacin, la
columna de prediccin con la que va a comparar los modelos y el valor que se va a predecir.
Nota
Las columnas del modelo de minera de datos que se enumeran en la lista Nombre de columna de
prediccin se limitan a las columnas cuyo tipo de uso se ha establecido en Predict o Predict Only,
y su tipo de contenido es Discrete o Discretized.
Para mostrar la elevacin de los modelos
1. En la ficha Seleccin de entrada del Diseador de minera de datos, en Seleccione las
columnas del modelo de minera de datos de prediccin que se mostrarn en el grfico de
elevacin, active la casilla correspondiente a Sincronizar valores y columnas de prediccin.
2. En la columna Nombre de columna de prediccin, compruebe que Bike Buyer est
seleccionado para cada modelo.
3. En la columna Mostrar, seleccione cada uno de los modelos.
De forma predeterminada, todos los modelos de la estructura de minera de datos
aparecen seleccionados. Puede decidir no incluir un modelo especfico, pero para este
tutorial deje todos los modelos seleccionados.
4. En la columna Valor de prediccin, seleccione 1. El mismo valor se rellena
automticamente para cada modelo que tiene la misma columna de prediccin.
5. Seleccione la ficha Grfico de elevacin para mostrar el grfico de mejora.
Cuando haga clic en la ficha, se ejecutar una consulta de prediccin en el servidor y en la
base de datos para la estructura de minera de datos y la tabla de entrada o los datos de
prueba. Los resultados se trazan en el grfico.
Al escribir un Valor de prediccin, el grfico de elevacin traza un modelo de suposicin
aleatorio as como un modelo ideal. Los modelos de minera de datos que cre se situarn
entre estos dos extremos, entre una suposicin aleatoria y una prediccin perfecta.
Cualquier mejora en la suposicin aleatoria se considera una elevacin.
6. Utilice la leyenda para buscar las lneas coloreadas que representan el modelo ideal y el
modelo de suposicin aleatoria.
Observar que el modelo TM_Decision_Treeproporciona la mayor elevacin, superando
tanto al modelo de clsteres como al de Bayes naive.

Probar un modelo filtrado (Tutorial bsico de minera de datos)
Ahora que ha determinado que el modelo TM_Decision_Treees el ms preciso, debera evaluarlo
en el contexto de la campaa de distribucin de correo directo de Adventure Works Cycles. El
departamento de marketing de desea saber si hay alguna diferencia en las caractersticas de los
compradores y las compradoras de bicicletas. Esta informacin les ayudar a decidir qu revistas
utilizar para los anuncios y qu productos ofrecer en sus campaas.
En esta leccin, crearemos un modelo que se filtra por el gnero. A continuacin, puede realizar
fcilmente una copia de ese modelo y cambiar la condicin de filtro para generar un nuevo modelo
basado en el gnero.

Usar filtros
El filtrado permite crear con facilidad modelos basados en subconjuntos de datos. El filtro se aplica
slo al modelo y no cambia el origen de datos subyacente.

Filtros en tablas de casos
Primero realizar una copia del modelo TM_Decision_Tree.
Para copiar el modelo del rbol de decisin
1. En Business Intelligence Development Studio, en el Explorador de soluciones,
seleccioneASDataMining2008.
2. Haga clic en la ficha Modelos de minera de datos.
3. Haga clic con el botn secundario en el modelo TM_Decision_Tree y seleccione Nuevo
modelo de minera de datos.
4. En el campo Nombre del modelo, escriba TM_Decision_Tree_Male.
Luego, cree un filtro para seleccionar los clientes para el modelo basados en su gnero.
Para crear un filtro de casos en un modelo de minera de datos
1. Haga clic con el botn secundario en el modelo de minera de
datos TM_Decision_Tree_Male para abrir el men contextual.
O bien
Seleccione el modelo. En el men Minera de datos, seleccione Establecer filtro de
modelos.
2. En el cuadro de dilogo Filtro del modelo, haga clic en la fila superior de la cuadrcula en el
cuadro de texto Columna de la estructura de minera de datos.
La lista desplegable muestra slo los nombres de las columnas de esa tabla.
3. En el cuadro de texto Columna de la estructura de minera de datos, seleccione Gender.
El icono en la parte izquierda del cuadro de texto cambia para indicar que el elemento
seleccionado es una tabla o una columna.
4. Haga clic en el cuadro de texto Operador y seleccione el operador igual (=) en la lista.
5. Haga clic en el cuadro de texto Valor y escriba M.
6. Haga clic en la siguiente fila de la cuadrcula.
7. Haga clic en Aceptar para cerrar el filtro del modelo.
El filtro se muestra en la ventana Propiedades. Como alternativa, puede iniciar el cuadro de
dilogoFiltro del modelo de la ventana Propiedades.
8. Repita los pasos anteriores, pero esta vez asigne al modelo el
nombre TM_Decision_Tree_Female y escriba F en el cuadro de texto Valor.

Ahora tiene dos modelos nuevos que se muestran en la ficha Modelos de minera de datos.
Procesar los modelos filtrados
Los modelos no se pueden utilizar hasta que se hayan implementado y procesado. Para obtener
ms informacin acerca de los modelos de procesamiento, vea Procesar los modelos de la
estructura de distribucin de correo directo (Tutorial bsico de minera de datos).
Para procesar el modelo filtrado
1. Hacer clic con el botn secundario en el modeloTM_Decision_Tree_Male y
seleccione Procesar estructura de minera de datos y todos los modelos.
2. Haga clic en Ejecutar para procesar los nuevos modelos.
3. Una vez completado el procesamiento, haga clic enCerrar en ambas ventanas de
procesamiento.
Evaluar los resultados
Vea los resultados y evale la exactitud de los modelos filtrados de la misma manera que hizo con
los tres modelos anteriores. Para obtener ms informacin, vea:
Probar la exactitud con grficos de elevacin (Tutorial bsico de minera de datos)
Para explorar los modelos filtrados
1. Seleccione la ficha Visor de modelo de minera de datos en Diseador de minera de
datos.
2. En el cuadro Modelo de minera de datos, seleccione TM_Decision_Tree_Male.
3. Deslice Mostrar nivel hasta 3.
4. Cambie el valor de la lista Fondo por 1.
5. Coloque el cursor sobre el nodo con la etiquetaTodos para ver el nmero de compradores
de bicicleta con respecto a los no compradores.
6. Repita los pasos 1 al 5 conTM_Decision_Tree_Female.
7. Explore los resultados para TM_Decision_Tree y los modelos filtrados por el gnero. Si se
comparan todos los compradores de bicicletas, los compradores masculinos y femeninos
comparten algunas de las mismas caractersticas de los compradores de bicicletas sin filtrar,
pero los tres tambin presentan diferencias interesantes. sta es informacin til que
Adventure Works Cycles puede utilizar para desarrollar su campaa de marketing.

Para probar la mejora en la prediccin de los modelos filtrados
1. Cambie a la ficha Grfico de precisin de minera de datos del Diseador de minera de
datos de Business Intelligence Development Studio y seleccione la ficha Seleccin de
entrada.
2. En el cuadro de grupo Seleccionar un conjunto de datos para usarlo en un grfico de
precisin, seleccione Usar casos de prueba de estructura de minera de datos.
3. En la ficha Seleccin de entrada del Diseador de minera de datos, en Seleccione las
columnas del modelo de minera de datos de prediccin que se mostrarn en el grfico de
elevacin, active la casilla correspondiente a Sincronizar valores y columnas de prediccin.
4. En la columna Nombre de columna de prediccin, compruebe que Bike Buyer est
seleccionado para cada modelo.
5. En la columna Mostrar, seleccione cada uno de los modelos.
6. En la columna Valor de prediccin, seleccione 1.
7. Seleccione la ficha Grfico de mejora respecto al modelo predictivo para mostrar el grfico
de mejora.
Observar ahora que los tres modelos de rbol de decisin proporcionan una mejora
significativa respecto al modelo de prediccin de suposicin aleatoria, adems de superar a
los modelos de clsteres y Bayes naive.

LECCIN 6: CREAR Y TRABAJAR CON PREDICCIONES (TUTORIAL BSICO
DE MINERA DE DATOS)
Ha entrenado, probado y explorado los modelos de minera de datos que cre. Ahora est en disposicin
de utilizar los modelos con el objeto de identificar a los destinatarios de la campaa de distribucin de
correo directo de Adventure Works Cycles. En esta leccin crear una consulta para predecir qu clientes
tienen ms probabilidad de comprar una bicicleta. Tambin recuperar la probabilidad de que la prediccin
sea correcta para poder decidir si se debe presentar o no la recomendacin al departamento de marketing
o no.

Cuando haya identificado a los clientes con una probabilidad alta de comprar una bicicleta, obtendr
detalles de los casos del modelo de minera de datos para recuperar los nombres y la informacin de
contacto correspondiente.

En esta leccin se incluyen los temas siguientes:
Crear predicciones (Tutorial bsico de minera de datos)
Usar la obtencin de detalles en datos de estructura (Tutorial bsico de minera de datos)

Crear predicciones (Tutorial bsico de minera de datos)
Una vez que haya probado la precisin de los modelos de minera de datos y est satisfecho con los
resultados, puede crear consultas de prediccin de Extensiones de minera de datos (DMX) por
medio del Generador de consultas de prediccin en la ficha Prediccin de modelo de minera de
datos del Diseador de minera de datos.
El Generador de consultas de prediccin tiene tres vistas. Mediante las vistas Diseo y Consulta,
puede crear y examinar una consulta. A continuacin, puede ejecutar la consulta y ver los
resultados en la vista Resultado.

Crear la consulta
El primer paso para crear una consulta de prediccin consiste en seleccionar una modelo de
minera de datos y una tabla de entrada.
Para seleccionar un modelo de minera de datos y una tabla de entrada
1. En la ficha Prediccin de modelo de minera de datos del Diseador de minera de datos,
en el cuadro Modelo de minera de datos, haga clic enSeleccionar modelo.
2. En el cuadro de dilogo Seleccionar modelo de minera de datos, navegue por el rbol
hasta la estructura Targeted Mailing, expndala, seleccioneTM_Decision_Tree y, a
continuacin, haga clic enAceptar.
3. En el cuadro Seleccionar tabla(s) de entrada, haga clic en Seleccionar tabla de casos.
4. En el cuadro de dilogo Seleccionar tabla, en la lista Origen de datos, seleccione Adventure
Works DW2008.
5. En la lista Nombre de tabla o vista, seleccione la tabla ProspectiveBuyer (dbo) y, a
continuacin, haga clic en Aceptar.
La tabla ProspectiveBuyer se parece mucho a la tabla de casos vTargetMail.

Asignar las columnas
Despus de seleccionar la tabla de entrada, el Generador de consultas de prediccin crea una
asignacin predeterminada entre el modelo de minera de datos y la tabla de entrada, en funcin
de los nombres de las columnas. Al menos una columna de la estructura debe coincidir con una
columna de los datos externos.

Importante
Los datos que usa para determinar la precisin de los modelos deben contener una columna que
se puede asignar a la columna de prediccin.

Para asignar las columnas de la estructura a las columnas de la tabla de entrada
1. Haga clic con el botn secundario en las lneas que conectan la ventana Modelo de minera
de datos a la ventana Seleccionar tabla de entrada y seleccione Modificar conexiones.
Observe que no todas las columnas estn asignadas. Agregaremos asignaciones para
variasColumnas de la tabla.
2. En Columna de la tabla, haga clic en la celda Bike Buyer y seleccione
ProspectiveBuyer.Unknown en el cuadro desplegable.
De esta forma se asigna la columna de prediccin, [Bike Buyer], a una columna de la tabla
de entrada.
4. En el Explorador de soluciones, haga clic con el botn secundario en la vista del origen de
datos Targeted Mailing y seleccione Diseador de vistas.
5. Haga clic con el botn secundario en el ttulo de tabla ProspectiveBuyer y seleccione Nuevo
clculo con nombre.
6. En el cuadro Nombre de columna, escriba calcAge.
7. En el cuadro Expresin, escriba DATEDIFF(AAAA,[BirdthDate],getdate()) y haga clic
en Aceptar.
La tabla de entrada no tiene ninguna columnaAntigedad correspondiente. Esta expresin
calcular la edad del cliente a partir de la columna BirthDate de la tabla de entrada. Puesto
queAntigedad se identific como la columna ms influyente para predecir la compra de
una bicicleta, debe existir en el modelo y en la tabla de entrada.
8. En el Diseador de minera de datos, seleccione la ficha Prediccin de modelo de minera
de datos y vuelva a abrir la ventana Modificar conexiones.
9. En Columna de la tabla, haga clic en la celdaAntigedad y seleccione
ProspectiveBuyer.calcAge en el cuadro desplegable.

Disear la consulta de prediccin

Para disear la consulta de prediccin
1. El primer botn de la barra de herramientas de la ficha Prediccin de modelo de minera
de datoses el botn Cambiar a vista de diseo de consulta / Cambiar a vista de resultado /
Cambiar a vista de consulta. Haga clic en la flecha abajo en este botn y seleccione Diseo.
2. En la cuadrcula de la ficha Prediccin de modelo de minera de datos, haga clic en la celda
de la primera fila vaca de la columna Origen y, a continuacin, seleccione Funcin de
prediccin.
De esta forma, se especificar la columna de destino para la funcin PredictProbability.
3. En la fila Funcin de prediccin, de la columnaCampo, seleccione PredictProbability.
4. En la ventana Modelo de minera de datos anterior, seleccione y arrastre [Bike Buyer]
hasta la celdaCriterios o argumento.
Cuando lo coloca, [TM_Decision_Tree].[Bike Buyer] aparece en la celda Criterios o
argumento.
5. Haga clic en la siguiente fila vaca de la columnaOrigen y, a continuacin, seleccione
TM_Decision_Tree.
6. En la fila TM_Decision_Tree, en la columna Campo, seleccione Bike Buyer.
7. En la fila TM_Decision_Tree, en la columna Criterios o argumento, escriba = 1.
8. Haga clic en la siguiente fila vaca de la columnaOrigen y, a continuacin,
seleccioneProspectiveBuyer.
9. En la fila ProspectiveBuyer, en la columna Campo, seleccione ProspectiveBuyerKey.
De esta forma, se agregar un identificador nico a la consulta de prediccin para que
pueda identificar quin es ms y menos probable que compre una bicicleta.
10. Agregue cinco filas ms a la cuadrcula. Para cada fila,
seleccione ProspectiveBuyer como Origen y, a continuacin, agregue las columnas
siguientes en las celdas Campo:
o calcAge
o LastName
o FirstName
o AddressLine1
o AddressLine2
Finalmente, ejecute la consulta y examine los resultados.
Para ejecutar la consulta y ver los resultados
1. En la ficha Prediccin de modelo de minera de datos, seleccione el botn Resultado.
2. Una vez que la consulta se ejecute y se muestren los resultados, puede revisarlos.
La ficha Prediccin de modelo de minera de datos muestra informacin de contacto para
los clientes potenciales que son probables compradores de bicicletas. La
columna Expresinindica la probabilidad de que la prediccin sea correcta. Puede utilizar
estos resultados para determinar a qu clientes potenciales debe dirigirse en el correo.
3. Haga clic en el botn Guardar para guardar los resultados.

Usar la obtencin de detalles en datos de estructura (Tutorial bsico de
minera de datos)
Adventure Works Cycles est enviando un formulario a los clientes potenciales de entre 34 y 40
aos de edad como parte de su campaa de publicidad. El departamento de marketing ha decidido
que les gustara enviar tambin el formulario a los clientes que compraron bicicletas de Adventure
Works Cycles hace ms de cinco aos. En esta leccin, identificar los clientes con bicicletas
anteriores y recuperar su informacin de contacto. Esta informacin no est incluida en el modelo,
pero se incluye en la estructura. Para recuperar la informacin de contacto, primero se asegurar
de que la obtencin de detalles est habilitada para la estructura y, a continuacin, la utilizar para
revelar los nombres y direcciones de los clientes con bicicletas anteriores.
Para habilitar la obtencin de detalles en un modelo de minera de datos
1. En Business Intelligence Development Studio, en la ficha Modelos de minera de datos del
Diseador de minera de datos, haga clic con el botn secundario en el
modelo TM_Decision_Tree y seleccionePropiedades.
2. En las ventanas Propiedades, haga clic enAllowDrillThroughy seleccione True.
3. En la ficha Modelos de minera de datos, haga clic con el botn secundario en el modelo y
seleccioneProcesar modelo.

Para ver los datos de obtencin de detalles de un modelo de minera de datos
1. En el Diseador de minera de datos, haga clic en la ficha Visor de modelo de minera de
datos.
2. Seleccione el modelo TM_Decision_Tree en la listaModelo de minera de datos.
3. Cambie el valor de la lista Fondo por 1.
4. Seleccione el visor de rboles de Microsoft en la listaVisor y haga clic con el botn
secundario en el nodoAge >= 34 y <41.
5. Seleccione Obtener detalles, despus seleccioneColumnas de modelo y estructura para
abrir la ventana Obtener detalles.
6. Desplcese a la columna Structure.Date First Purchase para ver la fecha de compra de las
bicicletas anteriores.
7. Para copiar los datos en el Portapapeles, haga clic con el botn secundario en cualquier fila
de la tabla y seleccione Copiar todo.

Felicidades, ha completado el Tutorial bsico de minera de datos. Ahora que conoce ms las
herramientas de minera de datos, recomendamos que tambin complete el Tutorial intermedio de
minera de datos, que demuestra cmo crear modelos de pronstico, anlisis de la cesta de la
compra y clsteres de secuencias.

Tutorial Básico de Minería de Datos

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tutorial Básico de Minería de Datos

Uploaded by

Copyright:

Available Formats

TUTORIAL BSICO DE MINERA DE DATOS

You might also like