Lantares Entornos Bigdata

Optimizacin de
entornos analticos
con Big Data
Caso de estudio
Gua editada por
Optimizacin de entornos analticos con Big Data. Caso de estudio 2
NDICE
1. Nuevos problemas en los entornos analticos . . . . . . . . . . . . . . . . . . . 3
2. Presentacin del caso de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3. Caso de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4. Las claves: ventajas de Hadoop. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
5. Caso de estudio - comparativa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
6. Caso de estudio - beneficios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
7. Resultados positivos: una optimizacin exitosa . . . . . . . . . . . . . . . 12
8. Oportunidades de mejora IBM - Hadoop. . . . . . . . . . . . . . . . . . . . . . . 12
9. I BM Infosphere Biginsights: la herramienta
que hace posible la optimizacin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Sguenos en:
Optimizacin de entornos analticos

con Big Data. Caso de estudio
1. N
uevos problemas en los entornos
analticos
El mundo est cambiando, no es una novedad. Cada vez se generan ms datos y ms rpido, los cuales, una
vez transformados en informacin, aportan un valor diferencial al negocio. El problema es averiguar cmo se
logran estos beneficios, cmo se accede a la pista de la generacin de valor.
Los usuarios de negocio y los responsables de las decisiones en materia de Business Intelligence tienen dudas
al respecto, no ven claro el camino a seguir y, entre sus problemas, plantean cuestiones como:
Qu ocurre si se necesita incorporar muchos ms indicadores o capacidades de visualizacin al cuadro de mando?

A. La implementacin de los cuadros de mando: esta herramienta esencial para el BI requiere del establecimiento y definicin de indicadores. Las preguntas surgen cuando no se comprende por qu slo se representa apenas un subconjunto de indicadores claves en vez de todos los necesarios. La respuesta es sencilla y
tiene que ver con el hecho de que un modelo de gestin basado en indicadores no debe ser infinito, porque
se tornara casi imposible de manejar. Hay que escoger los ms representativos y los que realmente son relevantes. Hace falta conocer el dato pero desde una perspectiva estratgica de negocio.
Qu sucede si se necesitan procesar grandes volmenes de datos, que crecen con mucha
velocidad, son variados y la veracidad es un requisito imprescindible?
B. La gestin de Big Data: pese a que, hasta hace muy poco, la tecnologa impeda que se pudiesen gestionar
grandes volmenes de datos, y mucho menos si se trataba de indicadores clave (al precisar stos reglas de
clculo, comparativas en el tiempo y determinacin de objetivos); hoy es posible abordar cantidades de informacin sin precedentes. Ello no significa que resulte beneficioso hacerlo, simplemente se tiene la posibilidad, en cuanto a herramientas y tambin en lo concerniente a los costes, que han descendido significativamente. Es necesario poder gestionar Big Data y hace falta saber escoger la herramienta que mejor se ajusta
a las necesidades de negocio.
C. Los procesos de carga (ETL): siempre se ha tenido una cierta reticencia, o un excesivo respeto, a la volumetra
de los orgenes de datos, a la frecuencia o velocidad en que se requeran incorporar al DWH, al volumen de
datos a procesar, a su variedad y, por supuesto, a su veracidad. Todos estos aspectos se han considerado como
las grandes limitaciones que afectaban al procesamiento de datos. En el entorno Big Data se encuentran soluciones para todos estos problemas, slo hay que saber dnde buscar.
Sguenos en:
Qu ocurre si se necesita almacenar mucha informacin estructurada? Y si se requiere

informacin desestructurada (hasta ahora ajena al mundo analtico)?
D. Los sistemas de almacenamiento: hasta ahora, los entornos analticos eran sinnimo de entornos estructurados. O se disponen de bases de datos relacionales para dar soporte al almacenamiento en los DWH y/o se
incorporan motores OLAP que generan cubos que facilitan el acceso a datos multidimensionales y a realizar
anlisis sobre los mismos. La llegada de Big Data ha ampliado las posibilidades, mejorando las capacidades
de almacenamiento de las empresas (no slo en cuanto al volumen sino tambin en lo relativo a la variedad
de datos almacenables: estructurados y no estructurados) y hacindolo de una forma, no slo mucho ms
econmica, sino definitivamente ms inteligente.
2. Presentacin del caso de estudio

A continuacin se expone un caso real de cmo optimizar un entorno analtico aplicando tecnologas Big Data.
Para ello, se parte de la base de los entornos analticos habituales, que ya son casi un estndar en el mercado:
Su arquitectura podra sintetizarse de la siguiente forma:
1. Data Warehouse: es el elemento troncal que permite la visin nica del negocio. Se
estructura por reas temticas (Datamarts), vinculadas entre s mediante los datos
maestros comunes a cada rama. Su contenido se alimenta a travs de procesos de integracin, empleando habitualmente herramientas ETL para ello.
2. Procesos ETL: este tipo de dinmicas permite obtener datos de los sistemas origen
(ERP, CRM o Excel, entre otros), a los que se aplican las transformaciones y procesos de
calidad necesarias para, posteriormente, proceder a su volcado en forma de informacin estructurada.
3. Capa de metadatos: finalmente, a travs de la capa de metadatos (modelo de abstraccin entre las estructuras de datos y los conceptos de negocio) se construyen y explotan los Scorecards, Dashboards, y Reports.
Sguenos en:
3. Caso de estudio
Partiendo de la arquitectura conceptual basada en el modelo descrito, el caso a tratar se caracteriza por los siguientes datos:
La granularidad temporal de la informacin en el DWH est a nivel segundos. Su historificacin slo permite
disponer de los datos de los ltimos 2 meses.
La informacin agregada se halla a nivel de minutos. Su historificacin slo permite disponer de los datos de
los ltimos 2 aos.
Estas restricciones, que contienen la volumetra de almacenamiento y su correspondiente procesamiento, est
dentro de los cnones normales, por lo que podran ser representativas de cualquier tipo de negocio. De hecho, su
funcionamiento es el adecuado, siempre y cuando los orgenes de datos mantengan una volumetra contenida.
En este caso de estudio se trabaja con un modelo de datos simple:
Detalle minutos
Incidencias
Detalle segundos
Sguenos en:
A medida que se llevan a cabo pruebas para ampliar volumetra en los orgenes de datos e incrementar la
profundidad histrica de ambos escenarios (por segundo y por minuto), se eleva el riesgo y comienzan a surgir
los siguientes inconvenientes, todos ellos provocados por la incompatibilidad de la cantidad de informacin
que se genera con la estructura de la solucin actual:
1. Aparicin de cuellos de botella durante la carga.
2. Problemas de rendimiento durante la carga que afectan a los tiempos.
3. Problemas de espacio durante la carga diaria.
4. Prdida de informacin histrica, por problemas de espacio.
5. Riesgo de cada del servidor, por falta de robustez.
6. Necesidad de hacer varias copias de seguridad en dispositivos externos.
7. Problemas de escalabilidad, que se ponen de manifiesto al intentar ampliar la estructura original.
La arquitectura de datos no permite el trabajo al ritmo que se precisa actualmente, ni en las condiciones requeridas por los usuarios de negocio. Es preciso optimizar el entorno y, para ello, se plantea definir una nueva
arquitectura con las siguientes caractersticas:
El gran impacto en el cambio de entorno, radica en la sustitucin del motor de base de datos que sustenta el
DWH, y sus procesos de integracin y calidad, por un entorno basado en tecnologa BIG DATA.
Para llevar a cabo esta transformacin se decide
basarse en el ecosistema Hadoop, que es open
source, por lo que no conlleva ningn coste de licencias y, adems, permite:
Crear una nueva plataforma formada por una

amplia cantidad de diferentes componentes que
se interconectan entre ellos.
Asegurar la compatibilidad con la solucin actual, permitiendo el aprovechamiento del modelado y reporting actual.
Sguenos en:
4. Las claves: ventajas de Hadoop

Las claves, por las que realmente se producen estas mejoras tienen que ver con los componentes de Hadoop.
Sus dos ms esenciales son el sistema de ficheros HDFS y MapReduce.
1. Sistema de Ficheros: HDFS: es donde Hadoop almacena los datos (sus siglas corresponden a la expresin
Hadoop Distributed File System). Sus principales caracterstica son:
Se organiza en funcin de discos locales aunque, a la hora de trabajar, lo hace como un
gran sistema nico de ficheros distribuido que se conectan a travs de mltiples nodos.
Uno de ellos, el Node Name, se ocupa de guardar la informacin acerca de los metadatos (permitiendo conocer en qu nodo se almacenan qu datos).
Los datos se reparten por todo el clster, por lo que, cada nodo del clster almacena
una porcin de informacin de 64 MB, partes de cada dato que se denominan bloques.
HDFS asume que un nodo puede fallar y por eso su distribucin se basa en la rplica e
los datos, de cada uno de los cuales se crean por defecto tres copias.
Los nodos pueden hablar entre s para redistribuir y mover los de datos si fuese necesario. Las aplicaciones no se tienen que preocupar de la ubicacin de los datos.
2. Map Reduce: es el algoritmo creado para procesar los datos en el clster. Consta de dos pasos MAP y REDUCE
y se inspira en la mxima divide y vencers. Para conocerlo mejor, hay que saber que:
Sguenos en:
Al estar los datos distribuidos por el clster (HDFS), a la hora de efectuar un anlisis
de la informacin es preciso aplicar el algoritmo Map Reduce, que divide el trabajo en
tareas.
El primer paso, tarea Map, se encarga de convertir los datos en Tuplas (clave, valor).
El paso dos, tarea Reduce, se encarga de limitar el nmero de Tuplas generadas por Map
mediante distintas tcnicas, por ejemplo agregando.
En la prctica, la accin de Map reduce podra ilustrarse con el siguiente ejemplo:
Ejemplo de MapReduce
Las ventajas de Hadoop estn claras, lo que hace falta a las organizaciones es poder acceder a ellas a travs de
los jobs, es decir, creando programas Hadoop. Para ello podran evaluarse cinco opciones:
1. Java
2. Pig
3. Hive
4. Jaql
5. BigSheets
Mientras que las tres primeras opciones requieren de conocimientos muy especializados en el campo de la
programacin y los lenguajes de consulta, las dos ltimas, creadas por IBM, son aptas para niveles usuarios ms
generalistas. Especialmente en el caso de la ltima.
Sguenos en:
La herramienta IBM BigSheets es una herramienta de la familia IBM InfoSphere; una aplicacin de la nube utilizada para realizar anlisis ad hoc en la web a gran escala sobre contenido no estructurado y estructurado. Esta
solucin ofrece a los usuarios de negocio la posibilidad de ser autnomos y no necesitar del soporte de TI para:
La herramienta IBM BigSheets es capaz de permitir un rpido retorno de la inversin al haber sido diseada
para ser utilizada por profesionales de negocio, sin necesidad de entender los esquemas de bases de datos, ni
los lenguajes de consulta. Su funcin es la de reunir rpidamente informacin y analizar enormes cantidades
de datos, permitiendo actuar sobre esos conocimientos y aprovechar la oportunidad de concentrarse en la generacin de valor para el negocio.
Explorar Big Data.
Obtener informacin con todos sus detalles.
Ser capaz de ejecutar esa informacin.
5. Caso de estudio - comparativa

La mejor forma de comprobar el progreso es medir y el
medio ms prctico para situarse es comparar.
Por esta razn, hemos realizado cuatro pruebas con volumetras diferentes, escalando hasta 3 nodos de almacenamiento y procesamiento.
Los resultados para el caso de estudio que nos ocupa han sido los siguientes:
Sguenos en:
A. Comparativas por cantidad de nodosw
Con estas volumetras se aprecia un mejor resultado a medida que los orgenes de datos aumentan y se dota al
ecosistema de ms nodos. En la curva de comportamiento, es posible apreciar cul es el equilibrio para definir
el ecosistema.
B. Comparativa entre la arquitectura antigua y la nueva
Sguenos en:
Con estas volumetras se

aprecia un mejor resultado
en tiempos de respuesta a la
vez que aumenta la volumetra de los orgenes de datos.
6. Caso de estudio - beneficios

Los beneficios del ecosistema Hadoop para el negocio son indiscutibles, en especial en lo que concierne a sus
efectos positivos de cara a la analtica, el reporting y la toma de decisiones. Entre las principales ventajas de la
optimizacin que se ha llevado a cabo se encuentran las siguientes:
1. Volumen y escalabilidad
Se ha pasado de tener una base de datos particionada a un sistema distribuido de servidores. Si se
necesita ms espacio, se agregan ms nodos.
2. Velocidad
Se ha pasado de tener un solo nodo que gestione la
carga (cuellos de botella) a tantos nodos como sean
necesarios. Si se necesita ms velocidad, se agregan ms nodos.
3. Replicacin, seguridad y robustez

Se ha producido el cambio radical de tener que
realizar varias copias de seguridad en dispositivos
externos, a que sea el mismo sistema el que se replique de manera automtica y transparente.
4. Veracidad
Se ha logrado hacer realidad el deseo de controlar la calidad nicamente en los procesos de almacenamiento.
Esto es posible gracias a la distribucin en nodos, que implica la garanta de fiabilidad, veracidad y calidad en
todos ellos, a diferencia de los problemas que otros modos de almacenamiento conllevaban.
Sguenos en:
7. R
esultados positivos: una optimizacin
exitosa
Como ha quedado demostrado con este caso prctico real, la incorporacin de tecnologas Big Data (en este
caso Hadoop) como sustituto (o como complemento) al DWH en un entorno analtico, abre las puertas a no
plantear lmites en materia de volumen, variedad, velocidad y veracidad de informacin crtica para la gestin
de decisiones de negocio.
Los beneficios son innumerables, desde sus posibilidades operativas para procesar y almacenar informacin
sin lmites, hasta los beneficios que reporta en trminos de ahorro; dado que muchas de estas tecnologas son
Open Source. No obstante, existen dos factores a tener en cuenta a la hora de plantear su implementacin:
Madurez tecnolgica imprescindible. Se trata de tecnologas muy innovadoras en el
mercado, por lo que no cualquier profesional est cualificado para realizar una implantacin de este calibre. Nuestro consejo es dejarse asesorar por expertos con experiencia
contrastada en este tipo de ecosistemas, por ejemplo el equipo de Lantares Solutions.
Necesidad de optar por un modelo puro o hbrido. Si bien podra ser totalmente vlido un modelo 100% basado en Big Data y Hadoop como sustitutos del DWH tradicional (aprovechando sus capacidades de almacenamiento distribuido en nodos, procesamiento distribuido y paralelo y almacenamiento estructurado y desestructurado),
desde nuestra experiencia, en Lantares Solutions defendemos un modelo mixto. Los
entornos de Big Data pueden convivir en un mismo ecosistema con las estructuras
estndar analticas. Para lograr que la iniciativa sea un xito slo es preciso hacer el
ejercicio de evaluar qu informacin, de baja volumetra, puede seguir coexistiendo
en un entorno analtico estndar mientras, en paralelo y en el mismo ecosistema, se
procesa y almacena informacin de mayor volumetra, velocidad, variedad y veracidad
en base a la aplicacin de tecnologas Big Data.
8. Oportunidades de mejora IBM - Hadoop

Si bien no era foco del caso de estudio, una vez obtenidos los resultados, continuamos evaluando mejoras
en dicha arquitectura. De esta forma, descubrimos que:
La manipulacin de Hadoop, las tcnicas de Map Reduce y Hive, requieren de un alto
conocimiento en el lenguaje de programacin Java.
El desarrollo de dichos procesos, al realizarse con un lenguaje de programacin, precisan de unos esfuerzos y tiempos que podran ser mejorables.
Estas barreras se pueden salvar, optimizando al mismo tiempo los resultados, con la ayuda de un software ya
consolidado en el mercado, como es el de IBM. En concreto, IBM InfoSphere BigInsights Enterprise Edition,
que proporciona prestaciones analticas avanzadas de Big Data en una plataforma de empresa. Y lo hace de la
siguiente forma:
Sguenos en:
Combina el cdigo abierto Apache Hadoop con funcionalidades e integracin de empresa, a fin de ofrecer un anlisis a gran escala con flexibilidad y tolerancia a errores
incorporadas.
Admite datos estructurados, semi-estructurados y sin estructurar en su formato nativo
para obtener la mxima flexibilidad.
Est diseado para obtener el mximo rendimiento y los niveles ms altos de usabilidad a travs de prestaciones optimizadas de visualizacin, herramientas de desarrollador y funciones analticas potentes.
Ofrece caractersticas de gestin, seguridad y fiabilidad, que admiten despliegues a
gran escala que aceleran el tiempo de generacin de valor.
Adems, se integra con IBM y otras soluciones de informacin para simplificar y mejorar las tareas de manipulacin de datos.
9. I BM Infosphere Biginsights: la herramienta

que hace posible la optimizacin
IBM BigInsights es un producto basado en Hadoop, que lo mejora consiguiendo que est listo para el usuario de
negocio (Enterprise Ready). Se trata de una herramienta de anlisis con formato de hoja de clculo, por lo que su
uso es muy sencillo y la curva de aprendizaje es mnima. Otra de sus ventajas es que se integra con las bases de datos y Data Warehouse existentes de IBM: DB2 IBM Infosphere Warehouse, IBM Smart Analytics e IBM Netezza.
IBM BigInsights cuenta con aplicaciones preconstruidas (suministradas por IBM o desarrolladas por el usuario). No es casualidad que sus beneficios se deriven de algunos de los elementos que incorpora, como:
Administracin.
Seguridad.
Sistema de ficheros GPFS.
Capacidades analticas avanzadas de IBM Research.
Workflow.
Aprovisonamiento.
Facilidad de Uso (BigSheets).
La consola de IBM BigInsights, adems de lanzar y publicar aplicaciones, permite llevar a cabo una gestin
minuciosa el sistema al hacer posible:
Inspeccionar el sistema.
Aadir/ quitar nodos.
Arrancar/ parar servicios.
Ejecutar y monitorizar jobs (aplicaciones).
Explorar el sistema de ficheros.
Sguenos en:
www.lantares.com
Sguenos en:

Lantares Entornos Bigdata

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Lantares Entornos Bigdata

Uploaded by

Copyright:

Available Formats

Optimizacin de

Gua editada por

Optimizacin de entornos analticos con Big Data. Caso de estudio 2

Optimizacin de entornos analticos con Big Data. Caso de estudio 3

Optimizacin de entornos analticos

Qu ocurre si se necesita incorporar muchos ms indicadores o capacidades de visualizacin al cuadro de mando?

Optimizacin de entornos analticos con Big Data. Caso de estudio 4

Qu ocurre si se necesita almacenar mucha informacin estructurada? Y si se requiere

2. Presentacin del caso de estudio

Optimizacin de entornos analticos con Big Data. Caso de estudio 5

Optimizacin de entornos analticos con Big Data. Caso de estudio 6

Crear una nueva plataforma formada por una

Optimizacin de entornos analticos con Big Data. Caso de estudio 7

4. Las claves: ventajas de Hadoop

Optimizacin de entornos analticos con Big Data. Caso de estudio 8

En la prctica, la accin de Map reduce podra ilustrarse con el siguiente ejemplo:

Optimizacin de entornos analticos con Big Data. Caso de estudio 9

5. Caso de estudio - comparativa

Optimizacin de entornos analticos con Big Data. Caso de estudio 10

A. Comparativas por cantidad de nodosw

B. Comparativa entre la arquitectura antigua y la nueva

Optimizacin de entornos analticos con Big Data. Caso de estudio 11

Con estas volumetras se

6. Caso de estudio - beneficios

3. Replicacin, seguridad y robustez

Optimizacin de entornos analticos con Big Data. Caso de estudio 12

8. Oportunidades de mejora IBM - Hadoop

Optimizacin de entornos analticos con Big Data. Caso de estudio 13

9. I BM Infosphere Biginsights: la herramienta

You might also like

Crear una nueva plataforma formada por una

9. I BM Infosphere Biginsights: la herramienta