Professional Documents
Culture Documents
entornos analticos
con Big Data
Caso de estudio
NDICE
1. Nuevos problemas en los entornos analticos . . . . . . . . . . . . . . . . . . . 3
2. Presentacin del caso de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3. Caso de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4. Las claves: ventajas de Hadoop. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
5. Caso de estudio - comparativa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
6. Caso de estudio - beneficios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
7. Resultados positivos: una optimizacin exitosa . . . . . . . . . . . . . . . 12
8. Oportunidades de mejora IBM - Hadoop. . . . . . . . . . . . . . . . . . . . . . . 12
9. I BM Infosphere Biginsights: la herramienta
que hace posible la optimizacin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Sguenos en:
Qu sucede si se necesitan procesar grandes volmenes de datos, que crecen con mucha
velocidad, son variados y la veracidad es un requisito imprescindible?
B. La gestin de Big Data: pese a que, hasta hace muy poco, la tecnologa impeda que se pudiesen gestionar
grandes volmenes de datos, y mucho menos si se trataba de indicadores clave (al precisar stos reglas de
clculo, comparativas en el tiempo y determinacin de objetivos); hoy es posible abordar cantidades de informacin sin precedentes. Ello no significa que resulte beneficioso hacerlo, simplemente se tiene la posibilidad, en cuanto a herramientas y tambin en lo concerniente a los costes, que han descendido significativamente. Es necesario poder gestionar Big Data y hace falta saber escoger la herramienta que mejor se ajusta
a las necesidades de negocio.
C. Los procesos de carga (ETL): siempre se ha tenido una cierta reticencia, o un excesivo respeto, a la volumetra
de los orgenes de datos, a la frecuencia o velocidad en que se requeran incorporar al DWH, al volumen de
datos a procesar, a su variedad y, por supuesto, a su veracidad. Todos estos aspectos se han considerado como
las grandes limitaciones que afectaban al procesamiento de datos. En el entorno Big Data se encuentran soluciones para todos estos problemas, slo hay que saber dnde buscar.
Sguenos en:
1. Data Warehouse: es el elemento troncal que permite la visin nica del negocio. Se
estructura por reas temticas (Datamarts), vinculadas entre s mediante los datos
maestros comunes a cada rama. Su contenido se alimenta a travs de procesos de integracin, empleando habitualmente herramientas ETL para ello.
2. Procesos ETL: este tipo de dinmicas permite obtener datos de los sistemas origen
(ERP, CRM o Excel, entre otros), a los que se aplican las transformaciones y procesos de
calidad necesarias para, posteriormente, proceder a su volcado en forma de informacin estructurada.
3. Capa de metadatos: finalmente, a travs de la capa de metadatos (modelo de abstraccin entre las estructuras de datos y los conceptos de negocio) se construyen y explotan los Scorecards, Dashboards, y Reports.
Sguenos en:
3. Caso de estudio
Partiendo de la arquitectura conceptual basada en el modelo descrito, el caso a tratar se caracteriza por los siguientes datos:
La granularidad temporal de la informacin en el DWH est a nivel segundos. Su historificacin slo permite
disponer de los datos de los ltimos 2 meses.
La informacin agregada se halla a nivel de minutos. Su historificacin slo permite disponer de los datos de
los ltimos 2 aos.
Estas restricciones, que contienen la volumetra de almacenamiento y su correspondiente procesamiento, est
dentro de los cnones normales, por lo que podran ser representativas de cualquier tipo de negocio. De hecho, su
funcionamiento es el adecuado, siempre y cuando los orgenes de datos mantengan una volumetra contenida.
En este caso de estudio se trabaja con un modelo de datos simple:
Detalle minutos
Incidencias
Detalle segundos
Sguenos en:
A medida que se llevan a cabo pruebas para ampliar volumetra en los orgenes de datos e incrementar la
profundidad histrica de ambos escenarios (por segundo y por minuto), se eleva el riesgo y comienzan a surgir
los siguientes inconvenientes, todos ellos provocados por la incompatibilidad de la cantidad de informacin
que se genera con la estructura de la solucin actual:
1. Aparicin de cuellos de botella durante la carga.
2. Problemas de rendimiento durante la carga que afectan a los tiempos.
3. Problemas de espacio durante la carga diaria.
4. Prdida de informacin histrica, por problemas de espacio.
5. Riesgo de cada del servidor, por falta de robustez.
6. Necesidad de hacer varias copias de seguridad en dispositivos externos.
7. Problemas de escalabilidad, que se ponen de manifiesto al intentar ampliar la estructura original.
La arquitectura de datos no permite el trabajo al ritmo que se precisa actualmente, ni en las condiciones requeridas por los usuarios de negocio. Es preciso optimizar el entorno y, para ello, se plantea definir una nueva
arquitectura con las siguientes caractersticas:
El gran impacto en el cambio de entorno, radica en la sustitucin del motor de base de datos que sustenta el
DWH, y sus procesos de integracin y calidad, por un entorno basado en tecnologa BIG DATA.
Para llevar a cabo esta transformacin se decide
basarse en el ecosistema Hadoop, que es open
source, por lo que no conlleva ningn coste de licencias y, adems, permite:
Asegurar la compatibilidad con la solucin actual, permitiendo el aprovechamiento del modelado y reporting actual.
Sguenos en:
2. Map Reduce: es el algoritmo creado para procesar los datos en el clster. Consta de dos pasos MAP y REDUCE
y se inspira en la mxima divide y vencers. Para conocerlo mejor, hay que saber que:
Sguenos en:
Al estar los datos distribuidos por el clster (HDFS), a la hora de efectuar un anlisis
de la informacin es preciso aplicar el algoritmo Map Reduce, que divide el trabajo en
tareas.
El primer paso, tarea Map, se encarga de convertir los datos en Tuplas (clave, valor).
El paso dos, tarea Reduce, se encarga de limitar el nmero de Tuplas generadas por Map
mediante distintas tcnicas, por ejemplo agregando.
Ejemplo de MapReduce
Las ventajas de Hadoop estn claras, lo que hace falta a las organizaciones es poder acceder a ellas a travs de
los jobs, es decir, creando programas Hadoop. Para ello podran evaluarse cinco opciones:
1. Java
2. Pig
3. Hive
4. Jaql
5. BigSheets
Mientras que las tres primeras opciones requieren de conocimientos muy especializados en el campo de la
programacin y los lenguajes de consulta, las dos ltimas, creadas por IBM, son aptas para niveles usuarios ms
generalistas. Especialmente en el caso de la ltima.
Sguenos en:
La herramienta IBM BigSheets es una herramienta de la familia IBM InfoSphere; una aplicacin de la nube utilizada para realizar anlisis ad hoc en la web a gran escala sobre contenido no estructurado y estructurado. Esta
solucin ofrece a los usuarios de negocio la posibilidad de ser autnomos y no necesitar del soporte de TI para:
La herramienta IBM BigSheets es capaz de permitir un rpido retorno de la inversin al haber sido diseada
para ser utilizada por profesionales de negocio, sin necesidad de entender los esquemas de bases de datos, ni
los lenguajes de consulta. Su funcin es la de reunir rpidamente informacin y analizar enormes cantidades
de datos, permitiendo actuar sobre esos conocimientos y aprovechar la oportunidad de concentrarse en la generacin de valor para el negocio.
Explorar Big Data.
Obtener informacin con todos sus detalles.
Ser capaz de ejecutar esa informacin.
Sguenos en:
Con estas volumetras se aprecia un mejor resultado a medida que los orgenes de datos aumentan y se dota al
ecosistema de ms nodos. En la curva de comportamiento, es posible apreciar cul es el equilibrio para definir
el ecosistema.
Sguenos en:
1. Volumen y escalabilidad
Se ha pasado de tener una base de datos particionada a un sistema distribuido de servidores. Si se
necesita ms espacio, se agregan ms nodos.
2. Velocidad
Se ha pasado de tener un solo nodo que gestione la
carga (cuellos de botella) a tantos nodos como sean
necesarios. Si se necesita ms velocidad, se agregan ms nodos.
4. Veracidad
Se ha logrado hacer realidad el deseo de controlar la calidad nicamente en los procesos de almacenamiento.
Esto es posible gracias a la distribucin en nodos, que implica la garanta de fiabilidad, veracidad y calidad en
todos ellos, a diferencia de los problemas que otros modos de almacenamiento conllevaban.
Sguenos en:
7. R
esultados positivos: una optimizacin
exitosa
Como ha quedado demostrado con este caso prctico real, la incorporacin de tecnologas Big Data (en este
caso Hadoop) como sustituto (o como complemento) al DWH en un entorno analtico, abre las puertas a no
plantear lmites en materia de volumen, variedad, velocidad y veracidad de informacin crtica para la gestin
de decisiones de negocio.
Los beneficios son innumerables, desde sus posibilidades operativas para procesar y almacenar informacin
sin lmites, hasta los beneficios que reporta en trminos de ahorro; dado que muchas de estas tecnologas son
Open Source. No obstante, existen dos factores a tener en cuenta a la hora de plantear su implementacin:
Madurez tecnolgica imprescindible. Se trata de tecnologas muy innovadoras en el
mercado, por lo que no cualquier profesional est cualificado para realizar una implantacin de este calibre. Nuestro consejo es dejarse asesorar por expertos con experiencia
contrastada en este tipo de ecosistemas, por ejemplo el equipo de Lantares Solutions.
Necesidad de optar por un modelo puro o hbrido. Si bien podra ser totalmente vlido un modelo 100% basado en Big Data y Hadoop como sustitutos del DWH tradicional (aprovechando sus capacidades de almacenamiento distribuido en nodos, procesamiento distribuido y paralelo y almacenamiento estructurado y desestructurado),
desde nuestra experiencia, en Lantares Solutions defendemos un modelo mixto. Los
entornos de Big Data pueden convivir en un mismo ecosistema con las estructuras
estndar analticas. Para lograr que la iniciativa sea un xito slo es preciso hacer el
ejercicio de evaluar qu informacin, de baja volumetra, puede seguir coexistiendo
en un entorno analtico estndar mientras, en paralelo y en el mismo ecosistema, se
procesa y almacena informacin de mayor volumetra, velocidad, variedad y veracidad
en base a la aplicacin de tecnologas Big Data.
Sguenos en:
Combina el cdigo abierto Apache Hadoop con funcionalidades e integracin de empresa, a fin de ofrecer un anlisis a gran escala con flexibilidad y tolerancia a errores
incorporadas.
Admite datos estructurados, semi-estructurados y sin estructurar en su formato nativo
para obtener la mxima flexibilidad.
Est diseado para obtener el mximo rendimiento y los niveles ms altos de usabilidad a travs de prestaciones optimizadas de visualizacin, herramientas de desarrollador y funciones analticas potentes.
Ofrece caractersticas de gestin, seguridad y fiabilidad, que admiten despliegues a
gran escala que aceleran el tiempo de generacin de valor.
Adems, se integra con IBM y otras soluciones de informacin para simplificar y mejorar las tareas de manipulacin de datos.
Sguenos en:
www.lantares.com
Sguenos en: