You are on page 1of 28

1.2.

1 Data Warehouse: todo lo que necesitas saber sobre almacenamiento de


datos
Un Data Warehouse es un almacén electrónico donde generalmente una empresa
u organización mantiene una gran cantidad de información. Los datos de un data
warehouse deben almacenarse de forma segura, fiable, fácil de recuperar y fácil de
administrar.

Índice de contenidos
1. ¿Qué es un Data Warehouse?
2. Pasado y presente del Data Warehouse
3. Data Warehouse en la nube
4. Data Warehouse vs Big Data vs BI: cuales son las diferencias
5. Material complementario

El concepto de data warehouse se originó en 1988 con el trabajo de los


investigadores de IBM, Barry Devlin y Paul Murphy aunque el término data
warehouse fue acuñado por William H. Inmon, el cual es conocido como el padre de
Data Warehousing. Inmon describió un data warehouse como una colección de
datos orientada a un tema específico, integrado, variante en el tiempo y no volátil,
que soporta el proceso de toma de decisiones.
1. ¿Qué es un Data Warehouse?
Un data warehouse es un repositorio unificado para todos los datos que recogen los
diversos sistemas de una empresa. El repositorio puede ser físico o lógico y hace
hincapié en la captura de datos de diversas fuentes sobre todo para fines analíticos
y de acceso.
Normalmente, un data warehouse se aloja en un servidor corporativo o cada vez
más, en la nube. Los datos de diferentes aplicaciones de procesamiento de
transacciones Online (OLTP) y otras fuentes se extraen selectivamente para su uso
por aplicaciones analíticas y de consultas por usuarios.
Data Warehouse es una arquitectura de almacenamiento de datos que permite a
los ejecutivos de negocios organizar, comprender y utilizar sus datos para tomar
decisiones estratégicas. Un data warehouse es una arquitectura conocida ya en
muchas empresas modernas.
Estructuras de un Data Warehouse
La arquitectura de un data warehouse puede ser dividida en tres estructuras
simplificadas: básica, básica con un área de ensayo y data marts.
Con una estructura básica, sistemas operativos y archivos planos proporcionan
datos en bruto que se almacenan junto con metadatos. Los usuarios finales pueden
acceder a ellos para su análisis, generación de informes y minería.
Al añadir un área de ensayo que se puede colocar entre las fuentes de datos y el
almacén, ésta proporciona un lugar donde los datos se pueden limpiar antes de
entrar en el almacén. Es posible personalizar la arquitectura del almacén para
diferentes grupos dentro de la organización.
Se puede hacer agregando data marts, que son sistemas diseñados para una línea
de negocio en particular. Se pueden tener data marts separados para ventas,
inventario y compras, por ejemplo, y los usuarios finales pueden acceder a datos de
uno o de todos los data marts del departamento.

2. Pasado y presente del Data Warehouse


Históricamente, los data warehouses se habían formado utilizando datos repetitivos
estructurados que eran filtrados antes de entrar en el data warehouse. Sin
embargo, en los últimos años, el data warehouse ha evolucionado debido a
información contextual que ahora se puede adjuntar a los datos no estructurados y
que también puede ser almacenada.
Aquellos primeros datos relacionales estructurados no podían ser mezclados y
emparejados para temas analíticos con datos textuales no estructurados. Pero con
el advenimiento de la contextualización, estos tipos de análisis ahora sí pueden
hacerse de forma naturales y fácil.
En el data warehouse, datos no repetitivos, como los comentarios en una encuesta,
correos electrónicos y conversaciones, se tratan de forma diferente a las
ocurrencias repetitivas de datos, como el flujo de clics, mediciones o el
procesamiento máquina o analógico. Los datos no repetitivos son datos basados en
textos que fueron generados por la palabra escrita o hablada, leída y reformateada
y, lo que es más importante, ahora puede ser contextualizada. Con el fin de extraer
cualquier sentido de los datos no repetitivos para su uso en el Data Warehouse,
deben tener el contexto de los datos establecidos.
En muchos casos, el contexto de los datos no repetitivos es más importante que los
datos en sí. En cualquier caso, los datos no repetitivos no pueden utilizarse para la
toma de decisiones hasta que se haya establecido el contexto.
Data Lakes y Data Warehouses: ¿mutuamente exclusivos o partners
perfectos?
Los data lakes han surgido en el paisaje de Data Management en los últimos años,
sin embargo, data lake no es necesariamente un reemplazo del data warehouse. En
cambio, complementan los esfuerzos existentes y dan soporte al descubrimiento de
nuevas preguntas. Una vez que se descubren esas preguntas se optimizan las
respuestas. Y optimizar puede significar moverse fuera del data lake para ir a un
data mart o al data warehouse.

Estas son algunas diferencias clave entre data lake y data warehouse:
Datos: Un data warehouse sólo almacena datos que han sido modelados o
estructurados, mientras que un Data Lake no hace acepción de datos. Lo almacena
todo, estructurado, semiestructurado y no estructurado.
Procesamiento: Antes de que una empresa pueda cargar datos en un data
warehouse, primero debe darles forma y estructura, es decir, los datos deben ser
modelados. Eso se llama schema-on-write. Con un data lake, sólo se cargan los
datos sin procesar, tal y como están, y cuando esté listo para usar los datos, es
cuando se le da forma y estructura. Eso se llama schema-on-read. Dos enfoques
muy diferentes.
Almacenamiento: Una de las principales características de las tecnologías de big
data, como Hadoop, es que el coste de almacenamiento de datos es relativamente
bajo en comparación con el de un data warehouse. Hay dos razones principales
para esto: en primer lugar, Hadoop es software de código abierto, por lo que la
concesión de licencias y el soporte de la comunidad es gratuito. Y segundo, Hadoop
está diseñado para ser instalado en hardware de bajo coste.
Agilidad: Un almacén de datos es un repositorio altamente estructurado, por
definición. No es técnicamente difícil cambiar la estructura, pero puede tomar mucho
tiempo dado todos los procesos de negocio que están vinculados a ella. Un data
lake, por otro lado, carece de la estructura de un data warehouse, lo que da a los
desarrolladores y a los científicos de datos la capacidad de configurar y reconfigurar
fácilmente y en tiempo real sus modelos, consultas y aplicaciones.
Seguridad: La tecnología del data warehouse existe desde hace décadas, mientras
que la tecnología de big data (la base de un Data Lake) es relativamente nueva. Por
lo tanto, la capacidad de asegurar datos en un data warehouse es mucho más
madura que asegurar datos en un data lake. Cabe señalar, sin embargo, que se
está realizando un importante esfuerzo en materia de seguridad en la actualidad en
la industria de Big Data.
El data warehouse continúa evolucionando
Hay todavía un gran potencial en la evolución del data warehouse y su uso sigue
adelante.

El procesamiento analítico clásico de datos basado en transacciones se realiza en


el data warehouse como siempre se ha hecho. Nada ha cambiado ahí. Pero ahora
puede hacerse analítica sobre datos contextualizados, y esa forma de análisis es
nueva. La mayoría de las organizaciones, hasta ahora no habían podido basar su
toma de decisiones en datos textuales no estructurados. Y ahora hay una nueva
forma de análisis posible en un Data Warehouse: la posibilidad de la mezcla de
análisis. El análisis combinado se realiza mediante una combinación de datos
transaccionales estructurados y datos contextuales no estructurados.

Existen muchas otras formas de análisis que también son posibles. Estas formas
incluyen análisis predictivo y prescriptivo, así como tecnologías de machine learning
y otras que están cambiando la forma en que los datos son administrados y
analizados. El data warehouse ha sido durante mucho tiempo un elemento básico
de la arquitectura de datos empresarial y sigue teniendo tiene un gran futuro en el
nuevo mundo de Big Data y la analítica avanzada.

3. Data Warehouse en la nube


Los data warehouses están atravesando actualmente dos transformaciones muy
importantes que tienen el potencial de impulsar niveles significativos de innovación
empresarial:
La primera área de transformación es el impulso para aumentar la agilidad general.
La gran mayoría de los departamentos de TI están experimentando un rápido
aumento de la demanda de datos. Los directivos quieren tener acceso a más y más
datos históricos, mientras que al mismo tiempo, los científicos de datos y los
analistas de negocios están explorando formas de introducir nuevos flujos de datos
en el almacén para enriquecer el análisis existente, así como impulsar nuevas áreas
de análisis. Esta rápida expansión de los volúmenes y fuentes de datos significa
que los equipos de TI necesitan invertir más tiempo y esfuerzo asegurando que el
rendimiento de las consultas permanezca constante y necesitan proporcionar cada
vez más entornos para equipos individuales para validar el valor comercial de los
nuevos conjuntos de datos.
La segunda área de transformación gira en torno a la necesidad de mejorar el
control de costes. Existe una creciente necesidad de hacer más con cada vez
menos recursos, al mismo tiempo que se garantiza que todos los datos sensibles y
estratégicos estén completamente asegurados, a lo largo de todo el ciclo de vida,
de la manera más rentable.

La nube está demostrando ser un facilitador dominante. Permite a las


organizaciones enfrentarse de forma activa a los desafíos que presentan estas dos
transformaciones clave.
¿Por qué migrar a la nube?
Las 3 tecnologías que ya tienen y seguirán teniendo un gran impacto en la
transformación de negocios son: la nube, datos y análisis, e Internet de las Cosas.
Estas tres tecnologías son parte clave del ecosistema del data warehouse actual.
Por lo tanto, es posible sacar la conclusión de que el data warehouse en la nube
tiene un gran potencial para generar un impacto significativo en los negocios.

La importancia de la nube para el data warehouse está directamente vinculado a


tres factores clave:
Mayor agilidad
Mejor control de costes
Co-localización
Mejora de la agilidad
Muchos data warehouses están embarcados en una fase de actualización. Con
mucho trabajo puesto ahora en torno al big data, las empresas buscan aprovechar
los nuevos flujos de datos y nuevos tipos de análisis más ricos para apoyar e
impulsar nuevas áreas, tales como:analítica de clientes de 360º, anaĺisis predictivo,
detección de fraude, análisis de IoT y el establecimiento de los datos como centro
de beneficio. Muchos de estos proyectos requieren el aprovisionamiento de nuevos
entornos de hardware y el despliegue de software. Es más rápido, más fácil y más
eficiente iniciar estos nuevos proyectos centrados en los datos utilizando los
servicios en la nube.
Mayor control de costes
Muchos equipos de TI están buscando maneras de consolidar los data marts
existentes, cada uno ejecutándose en hardware dedicado o incluso en hardware
propietario, en un único entorno integrado. Los servicios en la nube de calidad
ofrecen la oportunidad perfecta para iniciar este tipo de proyectos. El cumplimiento
legal no puede ser visto como un extra opcional cuando se planifica un traslado a la
nube. Los activos de datos deben estar protegidos a lo largo de todo el ciclo de vida.
Los servicios en la nube deben facilitar todo esto, siendo más rentables ya que todas
las características de seguridad se pueden habilitar de forma predeterminada y
mejorada, y actualizada de forma transparente.

Co-Localización para una carga más rápida


La mayoría de los data warehouses generan datos directamente desde aplicaciones
clave, como entrada de pedidos, ventas, finanzas y fabricación. Por lo tanto, tiene
mucho sentido ubicar conjuntamente el data warehouse junto con los sistemas
fuente que ya se estén ejecutándose en la nube. La ubicación conjunta ofrece una
carga de datos más rápida, lo que significa que los usuarios obtienen un acceso
más oportuno a sus datos.
Principales ventajas de mover el data warehouse a la nube
Existen tres ventajas principales para mover un data warehouse a la nube, y estas
están directamente vinculados a los tres controladores clave enumerados
anteriormente:
Más fácil consolidación y racionalización
Monetización más rápida de los datos en la nube
La nube ofrece mejor protección

4. Data Warehouse vs Big Data vs BI: cuales son las diferencias


En este apartado compararemos brevemente los conceptos Data Warehouse (DW),
Big Data y Business Intelligence (BI).

Los tres conceptos están interconectados y la perspectiva es que, cada vez más, la
mayoría de empresas utilicen el análisis generado por este tipo de tecnologías para
tener una visión más analítica de su negocio y así poder tomar las mejores
decisiones para crecer.

Se trata de tres conceptos completamente diferentes que tienen en común una


nueva manera de lidiar con los datos, siempre teniendo en cuenta la existencia de
una gran volumen de información en varios formatos que contribuyen, de forma
estructurada o no estructurada, a la toma de decisiones estratégicas. El objetivo
final de cualquiera de estas tecnologías es ofrecer una ventaja competitiva a las
empresas, pero la forma en que se utiliza es la que marcará la diferencia.

Big Data
Llamamos big data a un gran volumen de datos con una variedad, complejidad y velocidad de
crecimiento enorme y que además tienen la característica de no ser estructurados. Eso significa
que no son relacionales, estando además fuera del entorno corporativo. Es un tipo de tecnología
que te permite analizar los datos en tiempo real y puede provenir de diferentes fuentes y formas,
tales como mensajería instantánea, redes sociales, registros de grabaciones, imágenes,
mensajes de correo electrónico, etc.

Para tener una idea de la importancia del big data, este mercado está creciendo cada año,
alrededor de un 40%. La paradoja reside en el hecho de que cuanto mayor es la evolución del
big data, mayor es la escasez de profesionales cualificados para satisfacer esa demanda. La
expectativa es que en unos pocos años, haya un crecimiento aún más significativo para el uso
de big data y por lo tanto un aumento en la demanda mano de obra especializada y de partners
tecnológicos especializados en esta materia.

Data Warehouse
Por otro lado, un data warehouse almacena datos consolidados de diversas fuentes o sistemas
de la empresa. Se trata de datos estructurados, que tiene como objetivo principal ser precisos
y de alta calidad para de esta forma poder dar soporte a la toma de decisiones de la empresa.
Se trata de conseguir tener todos los datos juntos para después poder dividirlos para hacer un
análisis de determinados sectores o estrategias.

Business Intelligence
Un Business Intelligence (BI) es una especie de “cuello de botella” de los datos recogidos del
data warehouse, que llegan de forma exacta y útil para ayudar a la toma de decisiones. Business
Intelligence transforma los datos en información útil para analizar no sólo los negocios, sino
también las principales estrategias corporativas.
https://www.powerdata.es/data-warehouse
https://neoattack.com/neowiki/data-warehouse/
https://www.sinnexus.com/business_intelligence/datawarehouse.aspx
1.2.2 MINERIA DE DATOS

Minería de datos está en desuso en SQL Server Analysis Services 2017. No se


actualiza la documentación de características en desuso. Para obtener más
información, consultecompatibilidad con versiones anteriores de Analysis
Services (SQL 2017).

La minería de datos es el proceso de detectar la información procesable de los


conjuntos grandes de datos. Utiliza el análisis matemático para deducir los patrones
y tendencias que existen en los datos. Normalmente, estos patrones no se pueden
detectar mediante la exploración tradicional de los datos porque las relaciones son
demasiado complejas o porque hay demasiado datos.

Estos patrones y tendencias se pueden recopilar y definir como un modelo de minería


de datos. Los modelos de minería de datos se pueden aplicar en escenarios como los
siguientes:

Previsión: calcular las ventas y predecir las cargas de servidor o el tiempo de


inactividad del servidor.

Riesgo y probabilidad: elegir los mejores clientes para la distribución de correo


directo, determinar el punto de equilibrio probable para los escenarios de riesgo, y
asignat probabilidades a diagnósticos u otros resultados.

Recomendaciones: determinar los productos que se pueden vender juntos y


generar recomendaciones.

Buscar secuencias: analizar los artículos que los clientes han introducido en el carrito
de compra y predecir los posibles eventos.

Agrupación: separar los clientes o los eventos en clústeres de elementos


relacionados, y analizar y predecir afinidades.

La generación de un modelo de minería de datos forma parte de un proceso mayor


que incluye desde la formulación de preguntas acerca de los datos y la creación de
un modelo para responderlas, hasta la implementación del modelo en un entorno
de trabajo. Este proceso se puede definir mediante los seis pasos básicos siguientes:

Definir el problema

Preparar los datos

Explorar los datos


Generar modelos

Explorar y validar los modelos

Implementar y actualizar los modelos

El siguiente diagrama describe las relaciones existentes entre cada paso del proceso
y las tecnologías de Microsoft SQL Server que se pueden usar para completar cada
paso.

El proceso que se ilustra en el diagrama es cíclico, lo que significa que la creación de


un modelo de minería de datos es un proceso dinámico e iterativo. Una vez que ha
explorado los datos, puede que descubra que resultan insuficientes para crear los
modelos de minería de datos adecuados y que, por tanto, debe buscar más datos. O
bien, puede generar varios modelos y descubrir entonces que no responden
adecuadamente al problema planteado cuando los definió y que, por tanto, debe
volver a definir el problema. Es posible que deba actualizar los modelos una vez
implementados debido a que haya más datos disponibles.Puede que haya que
repetir cada paso del proceso muchas veces para crear un modelo adecuado.

La minería de datos de Microsoft SQL Server ofrece un entorno integrado para crear
y trabajar con modelos de minería de datos. Este entorno incluye SQL Server
Development Studio, que contiene algoritmos de minería de datos y herramientas
de consulta que facilitan la generación de una solución completa para una serie de
proyectos, y SQL Server Management Studio, que contiene herramientas que
permiten examinar modelos y administrar objetos de minería de datos. Para obtener
más información, vea Crear modelos multidimensionales al usar las herramientas de
datos de SQL Server (SSDT).
Si quiere ver un ejemplo de cómo las herramientas de SQL Server se pueden aplicar
en un escenario empresarial, vea Tutorial básico de minería de datos.

Definir el problema

El primer paso del proceso de minería de datos, tal como se resalta en el siguiente
diagrama, consiste en definir claramente el problema y considerar formas de usar los
datos para proporcionar una respuesta para el mismo.

Este paso incluye analizar los requisitos empresariales, definir el ámbito del
problema, definir las métricas por las que se evaluará el modelo y definir los objetivos
concretos del proyecto de minería de datos. Estas tareas se traducen en preguntas
como las siguientes:

¿Qué está buscando? ¿Qué tipos de relaciones intenta buscar?

¿Refleja el problema que está intentando resolver las directivas o procesos de la


empresa?

¿Desea realizar predicciones a partir del modelo de minería de datos o solamente


buscar asociaciones y patrones interesantes?

¿Qué resultado o atributo desea predecir?

¿Qué tipo de datos tiene y qué tipo de información hay en cada columna? En caso
de que haya varias tablas, ¿cómo se relacionan? ¿Necesita limpiar, agregar o
procesar los datos antes de poder usarlos?

¿Cómo se distribuyen los datos? ¿Los datos son estacionales? ¿Los datos
representan con precisión los procesos de la empresa?
Para responder a estas preguntas, puede que deba dirigir un estudio de
disponibilidad de datos para investigar las necesidades de los usuarios de la empresa
con respecto a los datos disponibles. Si los datos no abarcan las necesidades de los
usuarios, podría tener que volver a definir el proyecto.

También debe considerar las maneras en las que los resultados del modelo se
pueden incorporar en los indicadores de rendimiento clave (KPI) que se utilizan para
medir el progreso comercial.

Preparar los datos

El segundo paso del proceso de minería de datos, como se indica en el siguiente


diagrama, consiste en consolidar y limpiar los datos identificados en el paso Definir
el problema .

Los datos pueden estar dispersos en la empresa y almacenados en formatos


distintos; también pueden contener incoherencias como entradas que faltan o
incorrectas. Por ejemplo, los datos pueden mostrar que un cliente adquirió un
producto incluso antes que se ofreciera en el mercado o que el cliente compra
regularmente en una tienda situada a 2.000 kilómetros de su casa.

La limpieza de datos no solamente implica quitar los datos no válidos o interpolar


valores que faltan, sino también buscar las correlaciones ocultas en los datos,
identificar los orígenes de datos que son más precisos y determinar qué columnas
son las más adecuadas para el análisis. Por ejemplo, ¿debería utilizar la fecha de
envío o la fecha de pedido? ¿Qué influye más en las ventas: la cantidad, el precio
total o un precio con descuento? Los datos incompletos, los datos incorrectos y las
entradas que parecen independientes, pero que de hecho están estrechamente
correlacionadas, pueden influir en los resultados del modelo de maneras que no
espera.

Por consiguiente, antes de empezar a generar los modelos de minería de datos,


debería identificar estos problemas y determinar cómo los corregirá. En la minería
de datos, por lo general se trabaja con un conjunto de datos de gran tamaño y no
se puede examinar la calidad de los datos de cada transacción; por tanto, es posible
que necesite usar herramientas de generación de perfiles de datos, y de limpieza y
filtrado automático de datos, como las que se proporcionan en Integration
Services, Microsoft SQL Server 2012 Master Data Serviceso SQL Server Data Quality
Services para explorar los datos y buscar incoherencias. Para obtener más
información, vea estos recursos:

Integration Services en Business Intelligence Development Studio

Introducción a Master Data Services (MDS)

Data Quality Services

Es importante tener en cuenta que los datos que se usan para la minería de datos
no necesitan almacenarse en un cubo de procesamiento analítico en línea (OLAP), ni
siquiera en una base de datos relacional, aunque puede usar ambos como orígenes
de datos. Puede realizar minería de datos mediante cualquier origen de datos
definido como origen de datos de Analysis Services . Por ejemplo, archivos de texto,
libros de Excel o datos de otros proveedores externos. Para obtener más
información, vea Orígenes de datos admitidos (SSAS - Multidimensionales).

Explorar los datos

El tercer paso del proceso de minería de datos, como se resalta en el siguiente


diagrama, consiste en explorar los datos preparados.
Debe conocer los datos para tomar las decisiones adecuadas al crear los modelos de
minería de datos. Entre las técnicas de exploración se incluyen calcular los valores
mínimos y máximos, calcular la media y las desviaciones estándar, y examinar la
distribución de los datos. Por ejemplo, al revisar el máximo, el mínimo y los valores
de la media se podría determinar que los datos no son representativos de los clientes
o procesos de negocio, y que por consiguiente debe obtener más datos equilibrados
o revisar las suposiciones que son la base de sus expectativas. Las desviaciones
estándar y otros valores de distribución pueden proporcionar información útil sobre
la estabilidad y exactitud de los resultados. Una desviación estándar grande puede
indicar que agregar más datos podría ayudarle a mejorar el modelo. Los datos que
se desvían mucho de una distribución estándar se podrían sesgar o podrían
representar una imagen precisa de un problema de la vida real, pero dificultar el
ajustar un modelo a los datos.

Al explorar los datos para conocer el problema empresarial, puede decidir si el


conjunto de datos contiene datos defectuosos y, a continuación, puede inventar una
estrategia para corregir los problemas u obtener una descripción más profunda de
los comportamientos que son típicos de su negocio.

Puede usar herramientas como Master Data Services para sondear los orígenes de
datos disponibles y determinar su disponibilidad para la minería de datos. Puede
usar herramientas como SQL Server Data Quality Services, o el generador de perfiles
de datos de Integration Services, para analizar la distribución de los datos y
solucionar problemas, como la existencia de datos incorrectos o la falta de datos.

Cuando tenga definido los orígenes, combínelos en una vista del origen de datos
con el Diseñador de vistas del origen de datos de SQL Server Data Tools. Para
obtener más información, vea Vistas del origen de datos en modelos
multidimensionales. Este diseñador también contiene algunas herramientas que
podrá usar para explorar los datos y comprobar que funcionarán a la hora de crear
un modelo. Para obtener más información, vea Explorar datos en una vista del origen
de datos (Analysis Services).

Tenga en cuenta que cuando se crea un modelo, Analysis Services crea


automáticamente resúmenes estadísticos de los datos contenidos en él, que puede
consultar para su uso en informes o análisis.Para obtener más información,
vea Consultas de minería de datos.

Generar modelos

El cuarto paso del proceso de minería de datos, como se resalta en el siguiente


diagrama, consiste en generar el modelo o modelos de minería de datos. Usará los
conocimientos adquiridos en el paso Explorar los datos para definir y crear los
modelos.

Deberá definir qué columnas de datos desea que se usen; para ello, creará una
estructura de minería de datos. La estructura de minería de datos se vincula al origen
de datos, pero en realidad no contiene ningún dato hasta que se procesa. Al procesar
la estructura de minería de datos,Analysis Services genera agregados y otra
información estadística que se puede usar para el análisis.Cualquier modelo de
minería de datos que esté basado en la estructura puede utilizar esta
información. Para obtener más información sobre cómo se relacionan las estructuras
de minería de datos con los modelos de minería de datos, vea Arquitectura lógica
(Analysis Services - Minería de datos).
Antes de procesar la estructura y el modelo, un modelo de minería de datos
simplemente es un contenedor que especifica las columnas que se usan para la
entrada, el atributo que está prediciendo y parámetros que indican al algoritmo
cómo procesar los datos. El procesamiento de un modelo a menudo se
denomina entrenamiento. El entrenamiento hace referencia al proceso de aplicar un
algoritmo matemático concreto a los datos de la estructura para extraer
patrones. Los patrones que encuentre en el proceso de entrenamiento dependerán
de la selección de los datos de entrenamiento, el algoritmo que elija y cómo se haya
configurado el algoritmo. SQL Server 2017contiene muchos algoritmos diferentes.
Cada uno está preparado para un tipo diferente de tarea y crea un tipo distinto de
modelo. Para obtener una lista de los algoritmos proporcionados en SQL Server
2017, vea Algoritmos de minería de datos (Analysis Services: Minería de datos).

También puede utilizar los parámetros para ajustar cada algoritmo y puede aplicar
filtros a los datos de entrenamiento para utilizar un subconjunto de los datos,
creando resultados diferentes. Después de pasar los datos a través del modelo, el
objeto de modelo de minería de datos contiene los resúmenes y modelos que se
pueden consultar o utilizar para la predicción.

Puede definir un modelo nuevo mediante el Asistente para minería de datos de SQL
Server Data Tools o con el lenguaje DMX (Extensiones de minería de datos). Para
obtener más información sobre cómo usar el Asistente para minería de datos,
vea Asistente para minería de datos (Analysis Services - Minería de datos). Para
obtener más información sobre cómo usar DMX, vea Referencia de Extensiones de
minería de datos (DMX).

Es importante recordar que siempre que los datos cambian, debe actualizar la
estructura y el modelo de minería de datos. Al actualizar una estructura de minería
de datos volviéndola a procesar, Analysis Services recupera los datos del origen,
incluido cualquier dato nuevo si el origen se actualiza dinámicamente, y vuelve a
rellenar la estructura de minería de datos. Si tiene modelos que están basados en la
estructura, puede elegir actualizar estos, lo que significa que se vuelven a entrenar
con los nuevos datos, o puede dejar los modelos tal cual. Para más información,
vea Requisitos y consideraciones de procesamiento (minería de datos).

Explorar y validar los modelos

El quinto paso del proceso de minería de datos, como se resalta en el siguiente


diagrama, consiste en explorar los modelos de minería de datos que ha generado y
comprobar su eficacia.
Antes de implementar un modelo en un entorno de producción, es aconsejable
probar si funciona correctamente. Además, al generar un modelo, normalmente se
crean varios con configuraciones diferentes y se prueban todos para ver cuál ofrece
los resultados mejores para su problema y sus datos.

Analysis Services proporciona herramientas que ayudan a separar los datos en


conjuntos de datos de entrenamiento y pruebas, para que pueda evaluar con
precisión el rendimiento de todos los modelos en los mismos datos. El conjunto de
datos de entrenamiento se utiliza para generar el modelo y el conjunto de datos de
prueba para comprobar la precisión del modelo mediante la creación de consultas
de predicción. Este particionamiento se puede hacer automáticamente mientras se
genera el modelo de minería de datos. Para obtener más información, vea Prueba y
validación (minería de datos).

Puede explorar las tendencias y patrones que los algoritmos detectan mediante los
visores del diseñador de minería de datos de SQL Server Data Tools. Para obtener
más información, vea Visores de modelos de minería de datos. También puede
comprobar si los modelos crean predicciones correctamente mediante herramientas
del diseñador como el gráfico de mejora respecto al modelo predictivo y la matriz
de clasificación. Para comprobar si el modelo es específico de sus datos o se puede
usar para realizar inferencias en la población general, puede usar la técnica
estadística denominada validación cruzada para crear automáticamente
subconjuntos de los datos y probar el modelo con cada uno. Para obtener más
información, vea Prueba y validación (minería de datos).
Si ninguno de los modelos que ha creado en el paso Generar modelos funciona
correctamente, puede que deba volver a un paso anterior del proceso y volver a
definir el problema o volver a investigar los datos del conjunto de datos original.

Implementar y actualizar los modelos

El último paso del proceso de minería de datos, como se resalta en el siguiente


diagrama, consiste en implementar los modelos que funcionan mejor en un entorno
de producción.

Una vez que los modelos de minería de datos se encuentran en el entorno de


producción, puede llevar acabo diferentes tareas, dependiendo de sus
necesidades. Las siguientes son algunas de las tareas que puede realizar:

Use los modelos para crear predicciones que luego podrá usar para tomar decisiones
comerciales. SQL Server pone a su disposición el lenguaje DMX, que podrá usar para
crear consultas de predicción, y el Generador de consultas de predicción, que le
ayudará a generar las consultas. Para más información, vea Referencia de
Extensiones de minería de datos (DMX).

Crear consultas de contenido para recuperar estadísticas, reglas o fórmulas del


modelo. Para obtener más información, vea Consultas de minería de datos.

Incrustar la funcionalidad de minería de datos directamente en una aplicación. Puede


incluir Objetos de administración de análisis (AMO), que contiene un conjunto de
objetos que la aplicación pueda utilizar para crear, cambiar, procesar y eliminar
estructuras y modelos de minería de datos. También puede enviar mensajes XML for
Analysis (XMLA) directamente a una instancia de Analysis Services. Para obtener más
información, vea Desarrollo (Analysis Services - Minería de datos).

Utilizar Integration Services para crear un paquete en el que se utilice un modelo de


minería de datos para dividir de forma inteligente los datos entrantes en varias
tablas. Por ejemplo, si una base de datos se actualiza continuamente con clientes
potenciales, puede utilizar un modelo de minería de datos junto con Integration
Services para dividir los datos entrantes en clientes que probablemente compren un
producto y clientes que probablemente no compren un producto. Para más
información, consulte Usos típicos de Integration Services.

Crear un informe que permita a los usuarios realizar consultas directamente en un


modelo de minería de datos existente. Para obtener más información, vea Reporting
Services en SQL Server Data Tools (SSDT).

Actualizar los modelos después de la revisión y análisis. Cualquier actualización


requiere que vuelve a procesar los modelos. Para más información,
consulte Processing Data Mining Objects.

Actualizar dinámicamente los modelos, cuando entren más datos en la organización,


y realizar modificaciones constantes para mejorar la efectividad de la solución
debería ser parte de la estrategia de implementación. Para obtener más información,
vea Administración de las soluciones y los objetos de minería de datos.

https://www.muyinteresante.es/tecnologia/preguntas-respuestas/que-es-la-mineria-
de-datos-311477406441
https://docs.microsoft.com/es-es/sql/analysis-services/data-mining/data-mining-
concepts?view=sql-server-2017
https://ccc.inaoep.mx/~jagonzalez/AI/Sesion13_Data_Mining.pdf
https://www.tecnologias-informacion.com/mineria-de-datos.html
ADMINISTRACION DEL CONOCIMIENTO

Cuando hablamos de Business Intelligence nos vienen a la mente


conceptos como Data Warehouse, OLAP, Customer Relationship
Management (CRM) y Data Mining. Todos ellos son buenos
ejemplos de herramientas que pueden mejorar significativamente
la capacidad de una organización a la hora de tomar decisiones de
negocio.
Estos conceptos se aglutinan bajo el paraguas del denominado
“Collaborative Business Intelligence”, que nos permite gestionar
conocimiento, y no únicamente información. Por lo tanto, este tipo
de herramientas serán fundamentales para la nueva sociedad de
la información y el conocimiento que se está convirtiendo en una
realidad.
Una solución Business Intelligence debe integrar información
estructurada y cuantitativa (números) con información no
estructurada (texto), permitiendo a los usuarios compartir, redefinir
y reutilizar de forma sencilla ese conocimiento que antes era tan
difícil de localizar.
Un proyecto de Business Intelligence se puede descomponer en
dos fases. Una primera de desarrollo, y una segunda de
implantación y uso. En esta última fase los empleados aprenderán
a compartir información tradicional y a darle un valor añadido y un
contexto que la convertirá en conocimiento.
Por supuesto el objetivo de todo esto es gestionar el conocimiento
para la acción, es decir, para la toma de decisiones. Todo
conocimiento que se capte y no se utilice en la vida real, no tiene
valor. Por lo menos desde el punto de vista de la empresa.
Todos conocemos la gran cantidad de obstáculos que nos
encontramos a la hora de tomar decisiones en el entorno actual.
Algunos de estos obstáculos están relacionados con el
conocimiento, otros con el aprendizaje,… en definitiva, cada vez es
más complejo tomar decisiones fundamentadas dentro de un
contexto tan cambiante.
La evolución de todos los conceptos que mencionábamos al
principio es el “Business Intelligence”, pero va mucho más allá. La
idea es combinar el soporte a la gestión y análisis de datos, con la
creación, captura, organización, acceso y uso del conocimiento, es
decir, con la Gestión del Conocimiento organizacional.
El “Collaborative Business Intelligence” une el mundo
estructurado de los números con el mundo desestructurado del
texto, y aumenta el valor añadido de ambos. Los informes que
produce una herramienta de “Business Intelligence” se pueden
obtener a través de la Web, pero también pueden ser obtenidos en
un contexto colaborativo junto con otro tipo de información para la
toma de decisiones. Esto permite que la organización aprenda de
su historia y de sus “Best Practices” (mejores prácticas).
Actualmente, los portales corporativos son las herramientas que
pueden facilitar la localización de cualquier tipo de información que
pueda ser relevante en el momento de tomar una decisión.
Además, la web permite algo fundamental: una actualización
continua de contenidos de forma sencilla. Mediante estas
herramientas, los usuarios pueden localizar rápidamente toda la
información que necesitan en periodos de tiempo cada vez más
reducidos.
Estos portales corporativos en los que se concentra toda esa
información y documentación en formato web, permiten realizar
búsquedas extraordinariamente potentes y tener mecanismos para
informar de todos los cambios que se produzcan en los contenidos.
El “Collaborative Business Intelligence” es un inmejorable camino
para conseguir información, sin preocuparse de su localización, y
transmitirla a una gran cantidad de personas que pueden estar
localizadas en cualquier lugar del mundo.
https://www.gestiopolis.com/business-intelligence-gestion-conocimiento/
https://www.ceupe.com/blog/que-es-el-business-intelligence.html
https://www.deustoformacion.com/blog/gestion-empresas/cuales-son-
componentes-business-intelligence-big-data
1.2.4 Aplicaciones Analiticas
Una aplicación analítica consiste en una serie lógicamente integrada de informes
interactivos incluyendo dashboards y scorecards, permitiendo de esta manera el
acceso a una amplia gama de usuarios, al análisis de información integrada de
procesos comerciales y tareas que se manejan en la actividad comercial del
negocio como son las ventas, servicios y operaciones.
Características de las aplicaciones analíticas:
1. Integradas Lógicamente: Una aplicación analítica es por encima de todo una
aplicación, eso significa que algún grado de lógica comercial es incluido en la
aplicación que ayude a los usuarios a navegar a través de una serie de tareas,
entre otras cosas.

2. Informes Interactivos que permitan a los usuarios acceder, analizar y actuar:


Esto significa que los usuarios pueden penetrar con una vista de nivel más alto de
un reporte a niveles más bajos o inferiores para adicionar información. Los
reportes interactivos pueden ser entregados por varias tecnologías: cubos OLAP,
reportes parametrizados, técnicas avanzadas de visualización, y formulación
estadística entre otras.

3. Información Integrada: Arquitectónicamente una aplicación analítica es un


objeto soportado por un repositorio de almacenamiento de datos de la empresa,
un simple al macen de datos puede soporta docenas de aplicaciones analíticas.

4. Dirección de un dominio comercial: Las aplicaciones analíticas son definidas por


los requerimientos de información de la actividad comercial, como las ventas,
servicios o infraestructura
Elementos de una aplicación analítica
Una aplicación analítica está compuesta por seis elementos primordiales los
cuales son:
1. Visualización y percepción: La visualización consiste en un ambiente grafico
amigable al usuario, con definición de colores, fuentes fondas de pantalla, en la
referente a la percepción se enfatiza en la navegación de las áreas de trabajo.
2. Reportes y Análisis: Los reportes en vistas de información predefinidas, que
pueden presentarse como estáticas o como documentos interactivos, los cuales
permiten mirar al detalle o filtrar los datos que se obtienen de las diversas vistas;
el análisis incorpora sofisticados cálculos, algoritmos estadísticos, y
visualizaciones avanzadas para ayudar a los usuarios a analizar grandes y
complejos volumen de información.
3. El servidor de análisis: El servidor de análisis es generalmente el responsable
de procesar peticiones utilizando run-time de metadatos definidos y guardándolos
en el almacén del servidor. El servidor de análisis también realiza funciones
administrativas como la seguridad, entrega de reportes, rastreo, clustering y
archivos de almacenamiento.
4. Lógica de negocios: Ya se ha mencionado un tipo de lógica comercial, la regla
de navegación de los usuarios es paso a paso a través de reportes, vistas,
acciones.
5. Modelo de Datos: El modelo de datos es el cerebro de aplicaciones analíticas, a
menudo trabajando en conjunto con la capa semántica de BI eso representa los
elementos de los datos en las condiciones comerciales comunes, los modelos de
datos son usados en las definiciones de los cubos de OLAP.
6. El mapeo de las fuentes: Se definen las transformaciones requeridas para llevar
los datos fuentes dentro del modelo de datos designado.
Dentro de la estrategia Business Intelligence (BI) de una organización, son claves
las aplicaciones analíticas. Aunque su adopción ha sido modesta hasta el
momento, se estima que su uso se cuadruplicará en los próximos tres años.
Una aplicación analítica es un producto de software diseñado para resolver un
problema de negocio concreto, mediante la implantación de análisis basados en
las mejores prácticas de negocio y una forma adecuada de presentar la
información. Debe proporcionar a los usuarios una manera fácil de monitorizar los
indicadores clave de negocio, ayudar a interpretar los cambios que se producen
de acuerdo a unas reglas y facilitar la acción basada en dicha interpretación, todo
ello dando una única visión del negocio entre los diferentes sistemas y
departamentos de la organización. Una elección incorrecta en esta área puede
ensombrecer la estrategia BI global de la compañía y eliminar los beneficios
obtenidos. El principal riesgo proviene de la implantación de aplicaciones
analíticas de visión departamental, inconexas y aisladas de la estrategia BI global,
lo que originará “islas de información” y múltiples versiones de la verdad en la
organización. En esta situación, las aplicaciones analíticas dejan de ser parte de la
solución para convertirse en parte del problema, al perderse la coherencia de
información que ha sido y es el principal beneficio de la tecnología BI y de los data
warehouses desde hace más de 10 años.
La mayoría de las grandes empresas tiene en la actualidad implantadas al menos,
3 aplicaciones operacionales: ERP, SCM y CRM. Éstas se centran en la
automatización de procesos, planificando, realizando y gestionando tareas que
implican manipulación de grandes volúmenes de datos. Sin embargo, dado que la
mayoría son de ámbito departamental, no proporcionan una visión integrada de la
organización. Las aplicaciones analíticas se convierten en un complemento
necesario a dichos sistemas operacionales, pues miden su éxito. Solo teniendo
una visión global y unificada del negocio, que sobrepase los límites
departamentales y operativos, se puede dar respuesta a preguntas como: ¿Tengo
suficientes productos en stock que respalden la campaña de marketing que quiero
lanzar?, ¿Cuáles son los niveles de fiabilidad de los proveedores que me
proporcionan dichos productos?, ¿Qué productos compran mis mejores clientes?.

Cómo elegir estas aplicaciones


El corazón de las aplicaciones analíticas lo constituyen las “analíticas” en las que
se basan (una técnica diseñada para responder a una pregunta de negocio
específica que tiene múltiples formas, puede ser un informe, una alerta enviada
por E-mail o PDA). Al elegir aplicaciones analíticas para llevar a cabo una
estrategia global de BI lo primero es aliarse con proveedores de experiencia en el
mundo BI. Dado que las aplicaciones analíticas no son más que una evolución de
la tecnología BI, su éxito va ligado a la experiencia en dicha área. Esta alianza
permitirá capturar su sabiduría tecnológica y de negocio de manera rápida, lo que
de otra forma exigiría tiempo, recursos y conocimiento dentro de la empresa. Hay
que adoptar una aproximación integrada con los estándares BI globales de la
organización y también es importante la rapidez de implantación y contar con la
posibilidad de combinar las visiones de “construir” y “comprar”, proporcionando un
entorno único que permita a las organizaciones construir sus propias aplicaciones
analíticas y adquirir aplicaciones empaquetadas que puedan ser personalizadas
utilizando dicho entorno. Es importante que todas actúen en torno a un único
modelo de datos corporativo.
Finalmente la incorporación de motores analíticos potentes, que incluyan
tratamiento de sets, series temporales, reglas de negocio y alertas automáticas, y
de analíticas predefinidas de fácil adaptación a la casuística de cada empresa.

Rosario Montero. Directora Preventa de Business Objects


https://sites.google.com/site/itsginteligenciadenegocios/home/1-2-componentes-
de-la-inteligencia-de-negocios/1-2-3-aplicaciones-analiticas

https://sites.google.com/site/inteligenciadenegociossa/home/conceptos-basicos/1-
2-3

1.2.5. Sistemas de Reportes.


Los sistemas de reportes tienen como objetivo principal mostrar una visión general
de la situación de la empresa. Consecuentemente, estos muestran la situación de
las operaciones regulares de la empresa para que los directivos puedan controlar,
organizar, planear y dirigir. Los reportes se pueden visualizar, exportar a otros
formatos como PDF, HTML, XML, etc. y también se pueden imprimir en papel.

El Jasper Report es una librería para la generación de informes. Está escrita en java
y es libre. http://jasperforge.org/ El funcionamiento consiste en escribir un xml donde
se recogen las particularidades del informe. Este xml lo tratan las clases del Jasper
para obtener una salida. Esta salida puede ser un PDF, XML, HTML, CSV, XLS,
RTF, TXT. Otra ventaja de utilizar Jasper Report es que se integra perfectamente
con el JFreeChart que es una librería libre para la generación de todo tipo de
graficas.

Para generar el xml lo recomendable es bajarse la herramienta iReport que es un


editor gráfico que está implementado en java y se integra perfectamente con el
Jasper Report.

El sistema de reportes jasper reports ofrece muchas herramientas que son de gran
utilidad proporciona todo lo necesario para diseñar informes de una complejidad
media, y la curva de aprendizaje para comenzar a tener resultados productivos no
es muy elevada. Además, el informe se puede realizar directamente sobre los xml
descriptores o podemos utilizar la herramienta ireport para diseñarlo gráficamente.
Un ejemplo básico:
Para generar un reporte con jasper report debemos seguir los siguientes
pasos:
Generar un fichero .jrxml en el que se configura cómo queremos el informe.
Compilar el fichero .jrxml para obtener un fichero .jasper.
Rellenar los datos del informe. Esto generará un fichero .jrprint.
Exportar el fichero .jrprint al formato que deseemos (pdf, etc). Esto generará el
fichero en cuestión.
Generar el fichero .jrxml

El fichero .jrxml se puede generar a mano con este DTD y esta referencia de
atributos. De todas formas, una opción mejor es usar la herramienta iReport, que
permite generar el fichero .jrxml de forma visual y más fácil.

En este fichero también se configura cual va a ser la fuente de datos (si es una base
de datos, un fichero, etc). Incluso si es base de datos, en este fichero se pone el
SELECT que devuelve los datos que queremos para el informe.
Compilado del fichero .jrxml
Para compilar el fichero .jrxml y generar el fichero .jasper, desde código podemos
poner algo como esto:
JasperReport report=
JasperCompileManager.compileReport("C:\\informesJAsper\\JRXML\\InformeMyS
ql.jrxml");
Rellenar el informe con datos
Ahora hay que rellenar el informe con datos. Desde código se hace con algo como
esto
JasperPrint print = JasperFillManager.fillReport(report, parameters, conn);
Donde conn es la conexión con la base de datos. No es necesario indicar el select
ni nada similar, puesto que esta información está incluida en el .jrxml.
Obtener el pdf (o el que sea)
Finalmente, para obtener el fichero .pdf, la línea es algo como esto
JasperExportManager.exportReportToPdfFile(print, "C:\\informes
JAsper\\PDF's\\InformePaisesMySQL.pdf");
Donde el parámetro es el fichero de salida que deseamos.
1.2.6 Sistemas de Reportes
un sistema de reportes le permite tener un conocimiento pleno de toda su empresa
a través de una gran cantidad amplia de datos manipulados de tal manera que
satisfaga las necesidades del usuario y pueda realizar un análisis coherente,
concreto y objetivo sobre los mismos.
un ejemplo de un sistema de reportes es el siguiente.
El SGR es un potente generador de informes que utiliza un cubo OLAP para mostrar
los datos que el usuario desea ver y a su vez estos datos se reflejan en distintos
gráficos ilustrativos.
Cuenta con la posibilidad de exportar el cubo OLAP a un archivo de Excel por si se
requiere manipular los datos en una hoja de cálculo o PDF si se desea imprimir.
También permite la posibilidad de armar un reporte con Título, logo de empresa,
descripción, autor, datos y gráficos. Con solo un clic obtendrá un reporte completo
y listo para presentar.
Ventajas:
El SGR es totalmente adaptable a cualquier universo de datos, lo cual lo hace
compatible con la gran variedad de sistemas del mercado actual. De cada informe,
el usuario puede realizar distintas combinaciones y guardarlas para luego utilizarlas
o imprimir un informe por cada configuración.
Si su informe posee muchos datos, el cubo OLAP que maneja el SGR está paginado
para aumentar así el rendimiento y orden de los datos. Cuenta con una sección para
realizar distintos tipos de filtros sobre el mismo de una manera rápida, ágil y fácil de
utilizar. También brinda la posibilidad de crear campos calculados en los informes,
podrá crear supuestas simulaciones en sus datos como saber en qué afectará un
aumento del 10% en el precio de un producto, en las ventas del mismo producto y
comparar la columna original con la columna que posee el aumento.
Los sistemas de reportes tienen como objetivo principal mostrar una visión general
de la situación de la empresa. Consecuentemente, estos muestran la situación de
las operaciones regulares de la empresa para que los directivos puedan controlar,
organizar, planear y dirigir. Los reportes se pueden visualizar, exportar a otros
formatos como PDF, HTML, XML, etc. y también se pueden imprimir en papel.
El valor de la gestión de datos
La Integración de Datos: otra Posibilidad de los Procesos ETL
Llega un momento en que las organizaciones, especialmente las grandes utilizan,
muchos sistemas y se nutren de un gran variedad de fuentes de datos, los cuales
funcionan en forma de retroalimentación mutua.
Cuando los sistemas y/o fuentes de datos que operan en una misma organización
y compañía superan un número razonable, por ejemplo de 1 a 3, esta
heterogeneidad les empieza a acarrear un considerable problema. Y esto ocurre a
menudo en compañías de un cierto tamaño.
Llegados a este punto, muchas empresas empiezan a utilizar los procesos ETL con
una objetivo distinto que el gerenciamiento o la optimización de datos. En estos
casos, la utilidad de la ETL se diversifica hacia laintegración y la migración de los
datos.
Más usos de los procesos ETL
Integración de datos. Como hemos visto, los procesos ETL tienen la capacidad de
leer y escribir en cualquier fuente o sistema. Por ello, no son pocas las empresas
que recurren a este tipo de procesos para integrar datos de diversos sistemas o
fuentes, muchos de ellos muy antiguos e incompatibles entre ellos. Si no existiera
la posibilidad de utilizar los sistemas ETL como integradores de datos, no cabría
otra opción de realizar esta tarea de forma manual y con multitud de errores.
Migración de datos. Se trata de, únicamente, trasladar la información de una base
de datos obsoleta a una nueva, realizando los cambios que sean precisos.
Se trata de procesos menos comunes pero cada vez más utilizados
Aunque la aplicación más común para un proceso ETL es la construcción y carga
de un data warehouse, cada vez más frecuentemente los procesos ETL son usados
para operaciones tales como la interacción y la migración de datos.

https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/312648/la-integraci-n-
de-datos-otra-posibilidad-de-los-procesos-etl
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/387310/calidad-de-
datos-en-procesos-etl-las-metas-que-debes-fijarte
https://docs.microsoft.com/es-es/azure/architecture/data-guide/relational-data/etl
https://blog.bi-geek.com/que-es-una-etl/
https://pmqlinkedin.wordpress.com/about/tecnologias-emergentes-en-bi/

NOTA EL 1.2.6 AUN ESTA EN PROCESO DE BUSQUEDA SALUDOS Y NO


OLVINDE SUSCRIBIRSE 

You might also like