You are on page 1of 6

IBM Software

Informe sobre la solucin

Aumento del data


warehouse: el almacn
de datos consultables
Utilizar Hadoop para optimizar un entorno
de warehouse

Integre capacidades de warehouse


de big data y de datos tradicionales.

Aproveche distintos datos para los


conocimientos de negocio.

En los ltimos aos, los big data han sido una noticia importante.
Aunque hasta ahora las organizaciones han estado ocupadas
explorando y experimentando, ahora estn empezando a centrarse
en el uso de las tecnologas de big data para solucionar problemas
empresariales. Un almacn de datos consultables puede ayudar a los
usuarios a procesar los datos a partir de diversas fuentes, de forma
rpida y con un coste bajo.

Reduzca costes de almacenamiento,


mantenimiento y licencias.

Cinco usos de alto valor para los big data

Traslade datos de bases de datos


tradicionales a Apache Hadoop.

Cree un archivo activo capaz de realizar


consultas complejas.

Caractersticas principales:

IBM ha realizado encuestas, ha estudiado las conclusiones de los


analistas, ha hablado con ms de 300 clientes y clientes potenciales y
ha implantado centenares de soluciones de big data. Como resultado
de ello, ha identificado los siguientes cinco casos de uso de alto valor,
que podran ser los primeros pasos en big data:
1. Exploracin de big data: Encontrar, visualizar y entender los big
data para mejorar la toma de decisiones.
2. Visin de 360 grados del cliente: Mejorar la visin existente del
cliente incorporando fuentes de informacin internas y externas.
3. Ampliacin de seguridad/inteligencia: Reducir el riesgo,
detectar el fraude y controlar la ciberseguridad en tiempo real.
4. Anlisis de operaciones: Analizar distintos datos de
mquinas para unos resultados empresariales y una eficiencia
operativa mejores.
5. Aumento del data warehouse: Integrar capacidades de
warehouse de big data y de datos tradicionales para obtener
nuevos conocimientos de negocio y al mismo tiempo optimizar
la infraestructura de warehouse existente.
No se pretende que sean secuenciales o priorizados. No importa
dnde empiecen los usuarios, slo importa que empiecen. La clave
es identificar qu casos de uso tienen ms sentido para la organizacin
dados los retos a los que se enfrenta.
Este informe se centra especficamente en el aumento del
data warehouse.

IBM Software
Informe sobre la solucin

Qu es el aumento del data warehouse?

Las organizaciones se benefician de trabajar con datos


diversos simplemente porque ahora hay muchsimas nuevas
fuentes de datos adems del tipo estructurado. La capacidad
de analizar estas fuentes hace posible tener conocimientos
que antes no eran posibles. Y al integrar estas nuevas fuentes
con los datos existentes en el warehouse, las organizaciones
pueden producir nuevos conocimientos que refuercen y
aceleren la toma de decisiones.

Los expertos del sector han identificado una tendencia.


Las organizaciones estn pasando de un data
warehouse empresarial (EDW) monoltico a una
arquitectura distribuida.

El EDW est evolucionando desde


la bsqueda de un nico repositorio
gestionado centralmente, a veces con
mltiples mercados de datos (a veces
centrales y radiales) hacia un motor
lgico de procesamiento de activos
de informacin.

Las organizaciones tambin se benefician de los costes


reducidos de almacenamiento, mantenimiento y licencia
al librarse del preprocesamiento y migrar los datos
poco utilizados a la plataforma Apache Hadoop.
Las organizaciones pueden reducir el coste total de
propiedad (TCO) al mantener menos datos dentro
del warehouse.
IBM ha identificado tres enfoques para el aumento del data
warehouse. Aunque este informe se centra en el tercero,
el almacn de datos consultables, es til entender los tres,
que son los siguientes:

Donald Feinberg, Gartner

Las organizaciones deben desarrollar un


enfoque pragmtico e intermedio entre
una arquitectura de data warehouse
empresarial gobernada y centralizada
y una anarqua descontrolada
y descentralizada.

1. Zona de aterrizaje / hub de preprocesamiento


2. Descubrimiento/analtica
3. Almacn de datos consultables

Zona de aterrizaje / hub de preprocesamiento


Hadoop se utiliza como zona de pruebas antes de
determinar qu datos deberan trasladarse al warehouse.
La organizacin puede procesar y analizar datos de
streaming en tiempo real para determinar qu debera
almacenarse, tanto en Hadoop como directamente en
el warehouse. Adems, es posible limpiar y transformar
los datos antes de cargarlos en el warehouse.

Colin White, investigacin sobre BI

Los big data no implican el fin del data warehouse.


Al contrario, los problemas de los big data pueden
abordarse mejor mediante un data warehouse mejorado.
Y es posible utilizar tecnologa de big data para aumentar
el valor del warehouse.

Descubrimiento/analtica
El anlisis de datos ad hoc en Hadoop se aplica a cualquier
combinacin de datos estructurados, no estructurados
o empresariales para permitir un anlisis ms profundo
de lo que es posible tradicionalmente. Asimismo, los datos
de streaming pueden filtrarse segn un subconjunto de
intereses o un anlisis ms profundo.

Hay dos controladores principales para el aumento del data


warehouse: la necesidad de aprovechar distintos datos para
los conocimientos de negocio y la necesidad de optimizar
la infraestructura del warehouse.

IBM Software
Informe sobre la solucin

Cmo funciona un almacn


de datos consultables?

Almacn de datos consultables (vase la imagen 1)


Hadoop se utiliza para almacenar datos consultables.
Inicialmente el usuario puede traspasar datos antiguos
o a los que se accede con poca frecuencia del warehouse
existente a Hadoop, lo que ayuda a optimizar el warehouse
en cuanto a tamao y rendimiento. Una vez implantada una
arquitectura de zona de aterrizaje, los datos activos pueden
copiarse al data warehouse y al mismo tiempo permanecer
en el almacn de datos consultables. De este modo ya no
ser necesario moverlos desde el warehouse de forma
continuada, proporcionando un archivo activo.

Este enfoque empieza con un data warehouse que est


sobreexplotado. Es posible que la organizacin guarde
datos fros o poco consultados que ocupan espacio en
su data warehouse o sus bases de datos de aplicacin y,
como resultado de ello, aumentan los costes. Borrar estos
datos no es deseable, ya que podran ser necesarios para
auditoras, aprendizaje mecnico y otros procesos analticos.
Al usar herramientas de integracin de la informacin y
de software, el usuario puede pasar estos datos de las bases
de datos tradicionales a Hadoop. Hadoop tiene distintas
opciones para representar los datos. El usuario puede aadir
una capa de metadatos Apache Hive, almacenarlos en tablas
de Apache HBase o ambas cosas.

Entorno de datos empresariales existente

Warehouse
de seccin/
lnea de negocio

Warehouse de
descubrimiento/
exploracin

MDM

Otros sistemas de datos relacionales

Integracin
y gobierno
de la
informacin

Zona de
analtica
e informes

Entorno de big data


Entorno Hadoop
Analtica en
tiempo real

Zona de
aterrizaje /
preprocesamiento

Datos de streaming

Descubrimiento/
analtica

Almacn de datos
consultables

Estructurado y no estructurado

Imagen 1: Arquitectura de referencia para el almacn de datos consultables

IBM Software
Informe sobre la solucin

Ventajas de un almacn
de datos consultables

Aunque estos datos estructurados se hayan sacado del


warehouse, una vez en Hadoop pueden existir con todos
los tipos de datos, creando un archivo que no slo es activo,
sino que tambin admite consultas complejas.

Las ventajas de un almacn de datos consultables


son sencillas pero significativas. En primer lugar,
reduce los costes. Los datos poco consultados requieren
un almacenamiento de menor coste, que hace posible
el almacn de datos consultables. Por ejemplo,
una organizacin con una ventana de retencin de
seis meses puede trasladar los datos a un archivo o
almacenamiento en cinta tras seis meses. Con Hadoop,
esta organizacin puede simplemente almacenar los
datos en el Hadoop Distributed File System (HDFS)
y consultarlos con un coste mucho ms bajo.

Una vez que se haya implantado la arquitectura de la


zona de aterrizaje, se elimina la necesidad de archivar
repetidamente los datos del warehouse a Hadoop. Esto se
debe a que los datos estaran en la zona de aterrizaje y el
warehouse podra contener solamente el subconjunto activo
de datos.
En cualquier caso, una vez que los datos estn en Hadoop,
pueden consultarse con la nueva funcin IBM Big SQL del
software IBM InfoSphere BigInsights. El usuario puede
explorar, encontrar y visualizar los datos en Hadoop en
cualquier momento, logrando comprender dnde deben
encontrarse los datos.

En segundo lugar, cuando el data warehouse ya no est


restringido a datos estructurados o limitaciones de volumen,
la organizacin es libre de recibir datos de diversas fuentes.
Por ltimo, el warehouse tiene mejor rendimiento.
La capacidad de mover datos a Hadoop implica que el
usuario puede distribuir tareas eficientemente y liberar
el warehouse de los datos inactivos que lo ralentizan.

Presentacin de la tecnologa IBM Big SQL


El software InfoSphere BigInsights V2.1 lleva una nueva
tecnologa, IBM Big SQL, que proporciona una interfaz SQL
para los datos almacenados en Hadoop, una base de datos
no relacional. Big SQL permite acceso SQL nativo a los
datos que estn en Hadoop. Esto significa que los usuarios
pueden aplicar sus inversiones existentes en SQL
aptitudes, aplicaciones y herramientas en un contexto
de big data. Con Big SQL todos los big data de SQL
son accesibles. Las organizaciones logran una visin
estructurada de sus datos existentes, lo que permite un uso
ptimo de los recursos disponibles. Big SQL proporciona
asistencia para grandes consultas ad hoc utilizando el
paralelismo MapReduce, as como consultas puntuales
(consultas de baja latencia que devuelven informacin
rpidamente) para reducir el tiempo de respuesta
y proporcionar un acceso mejorado a los datos.

Tecnologas de big data en el almacn


de datos consultables
IBM est perfectamente cualificado para admitir el aumento
del data warehouse con las prestaciones de su plataforma
de big data, como se muestra en la imagen 2.
El software InfoSphere BigInsights se basa en el marco
de Hadoop para incluir analtica y facilita al cliente de
la empresa el despliegue y la gestin. IBM no bifurca el
cdigo y mantiene la compatibilidad de la API de Hadoop.
IBM empaqueta los componentes clave de cdigo abierto
de Hadoop en el software BigInsights, pero tambin
incluye tecnologa de IBM que no est disponible
con las distribuciones de cdigo abierto de Hadoop.

Pruebe Big SQL gratuitamente cuando descargue


InfoSphere BigInsights Quick Start Edition en
ibm.com/InfoSphere/QuickStart.

Las prestaciones empresariales del software BigInsights


incluyen una fiabilidad y un rendimiento mejorados,
un juego de herramientas analticas incorporado,
integracin empresarial, administracin y seguridad
mejoradas, herramientas del usuario final, etc. Con estos
componentes incluidos en el software BigInsights,
los clientes se benefician no slo de la comunidad de
desarrollo de cdigo abierto, sino tambin de IBM,
que gestiona los niveles de las versiones y proporciona
soporte empresarial.

IBM Software
Informe sobre la solucin

El software InfoSphere BigInsights tiene licencias de uso


limitadas para las aplicaciones siguientes:

Pruebe GRATIS las funciones empresariales clave


del software IBM InfoSphere BigInsights

Ahora puede familiarizarse con estas funciones sin


coste alguno, sin limitaciones de datos o tiempo.
Descargue InfoSphere BigInsights Quick Start Edition en
ibm.com/InfoSphere/QuickStart y empiece a experimentar
con cualquiera de estas funciones:

IBM Big SQL: para un acceso SQL estndar a los datos


que estn en Hadoop.
IBM BigSheets: Para una interfaz familiar tipo hoja
de clculo para visualizar los datos.
Analtica avanzada de textos integrada: Para
centenares de anotadores y soporte multiidioma para
detectar el sentido en un texto de lenguaje natural.

Plataforma IBM InfoSphere Streams: La plataforma


de analtica en tiempo real de IBM. Permite un
procesamiento en tiempo real incomparable y el
anlisis complejo de datos en movimiento, y descubre
la informacin a medida que se produce.
Software IBM InfoSphere Data Explorer: El fantstico
software de deteccin y navegacin federado de IBM.
Hace que sea fcil visualizar y buscar todos los datos
dentro de las plataformas de BigInsights y Hadoop,
as como otras aplicaciones empresariales, lo que permite
a todos los usuarios de la organizacin, desde cientficos
de datos hasta trabajadores de la informacin de primera
lnea, obtener conocimientos profundos a partir de
big data.

Plataforma de big data


Gestin
de sistemas

Desarrollo de
aplicaciones

Deteccin

Aceleradores
Sistema
Hadoop

Stream
computing

Data
Warehouse

Integracin y gobierno de la informacin

Datos

Medios de comunicacin

Contenido

Imagen 2: Plataforma de big data de IBM

Mquina

Social

Las prestaciones de informacin, integracin y gobierno


(IIG) de IBM sirven de apoyo a la calidad, la precisin
y la seguridad de los datos durante todo su ciclo de vida,
incluyendo todas las formas de big data.
Las funciones de InfoSphere IIG renen toda la
informacin adecuada, independientemente de su formato
y de dnde se encuentre, y la transforman en informacin
consumible preparada para su anlisis para beneficio de la
empresa. Las capacidades de IIG han sido diseadas a la
escala de big data para gestionar datos de cualquier volumen
y proporcionar actualizaciones continuas sobre los cambios,
de modo que el anlisis pueda basarse en datos recientes.
Especficamente, las prestaciones de IBM InfoSphere
Information Server integran datos en mltiples sistemas
utilizando un marco paralelo de alto rendimiento y pueden
usarse para integrar datos basados en Hadoop de forma
ms flexible.

Necesita un almacn de
datos consultables?
Si responde s a las siguientes preguntas, es posible que
necesite un almacn de datos consultables antes de lo
que piensa:

Se ahoga en conjuntos de datos muy grandes


(de terabytes a petabytes)?
Utiliza su warehouse como depsito de todos los datos?
Tiene datos fros o poco consultados?
A menudo se deshace de datos porque no puede
almacenarlos o procesarlos?
Quiere explorar grandes cantidades de datos?

Para ms informacin
Si quiere explorar un almacn de datos consultables,
pngase en contacto con su representante comercial
local o visite
ibm.com/software/data/infosphere/biginsights/.

IBM Espaa
Santa Hortensia, 26-28
28002 Madrid
Espaa
IBM, el logotipo de IBM, ibm.com, BigInsights e InfoSphere son
marcas comerciales o marcas comerciales registradas de International
Business Machines Corporation en los Estados Unidos y/o en otros
pases. Si stas o cualquier otra denominacin de IBM protegida
por una marca van acompaadas, la primera vez que aparecen en el
documento, de un smbolo de marca ( o ), estos smbolos indican
que se trata de marcas registradas o marcas de hecho en los Estados
Unidos propiedad de IBM en el momento de publicacin de la
informacin. Es posible que estas marcas tambin estn registradas o
sean marcas de hecho en otros pases. Encontrar una lista actual de las
marcas de IBM bajo el ttulo Copyright and trademark information
en ibm.com/legal/copytrade.shtml.
Los dems nombres de compaas, productos y servicios pueden
ser marcas comerciales o marcas de servicio de terceros.
Este documento est actualizado a la fecha inicial de publicacin y
puede ser modificado por IBM en cualquier momento. No todos los
productos estn disponibles en todos los pases en los que IBM opera.
Los ejemplos de clientes citados slo se presentan a efectos ilustrativos.
Los resultados reales pueden variar segn la configuracin especfica
y las condiciones de funcionamiento. Es responsabilidad del usuario
evaluar y verificar el funcionamiento de cualquier otro producto o
programa con los productos y programas IBM. LA INFORMACIN
CONTENIDA EN ESTE DOCUMENTO SE PROPORCIONA
TAL CUAL, SIN NINGUNA GARANTA EXPLCITA NI
IMPLCITA, INCLUYENDO, SIN LIMITARSE A ELLAS,
LAS GARANTAS DE COMERCIALIZACIN, ADAPTACIN
A FINES CONCRETOS Y CUALQUIER GARANTA O
SITUACIN DE NO INCUMPLIMIENTO NORMATIVO.
Los productos IBM tienen la garanta que les otorgan las condiciones
de los contratos en virtud de los cuales se suministran.
Copyright IBM Corporation 2014
Reciclar por favor

IMS14432-ESES-00

You might also like