You are on page 1of 32

Caractersticas y tipos de bases de datos

Durante las dcadas de los 60 y 70 surge el concepto de las bases de datos; sin embargo, el
objetivo principal siempre ha sido la administracin ptima de la informacin y el uso que
se le puede dar a la misma. Hoy, las necesidades de las empresas han cambiado y la
necesidad de interactuar con diversas fuentes de informacin ha desafiado a las bases de
datos. Lo anterior ha provocado que los volmenes de informacin sean mayores, su
formato muy diverso lo que incrementa as los tiempos de respuesta para analizar la
informacin y tomar decisiones.

2 Comentarios

Jorge Daniel Anguiano Morales, Consultor Certificado IM DB2 para LUW, IBM Mxico

30-06-2014

Tabla de contenidos

Desarrolle y despliegue su prxima app en Bluemix, la plataforma cloud de IBM.

Comience su
prueba gratuita

Existe mucha informacin acerca de las bases de datos, por lo tanto el objetivo de este
artculo no es hacerlo un experto en el tema sino solo ser una gua de los conceptos que se
manejan actualmente, conocer brevemente las caractersticas de las bases de datos y las
soluciones que existen hoy en da.

Qu es una base de datos?


De una manera simple, es un contenedor que permite almacenar la informacin de forma
ordenada con diferentes propsitos y usos. Por ejemplo, en una base de datos se puede
almacenar informacin de diferentes departamentos (Ventas, Recursos Humanos,
Inventarios, entre otros). El almacenamiento de la informacin por s sola no tiene un valor,
pero si combinamos o relacionamos la informacin con diferentes departamentos nos puede
dar valor. Por ejemplo, combinar la informacin de las ventas del mes de junio del 2014
para el producto X en la zona norte nos da un indicativo del comportamiento de las ventas
en un periodo de tiempo.

Volver arriba
Tipos de bases de datos
Existen muchas empresas con diferentes giros y dependiendo del giro ser el tipo de
procesamiento que se le dar a la informacin, esto determinar el tipo de base de datos a
utilizar. Existen diferentes tipos de bases de datos pero las ms comunes son las OLTP y
OLAP.

Las bases de datos de tipo OLTP (On Line Transaction Processing) tambin son llamadas
bases de datos dinmicas lo que significa que la informacin se modifica en tiempo real, es
decir, se insertan, se eliminan, se modifican y se consultan datos en lnea durante la
operacin del sistema. Un ejemplo es el sistema de un supermercado donde se van
registrando cada uno de los artculos que el cliente est comprando y a su vez el sistema va
actualizando el Inventario.

Figura 1.

Las bases de datos de tipo OLAP (On Line Analytical Processing) tambin son llamadas
bases de datos estticas lo que significa que la informacin en tiempo real no es afectada, es
decir, no se insertan, no se eliminan y tampoco se modifican datos; solo se realizan
consultas sobre los datos ya existentes para el anlisis y toma de decisiones. Este tipo de
bases de datos son implementadas en Business Intelligence para mejorar el desempeo de
las consultas con grandes volmenes de informacin.

Figura 2.

La necesidad de implementar un tipo u otro depender del giro y necesidades de cada


empresa. Es muy importante identificar el tipo de base de datos que se requiere antes de
implementar un manejador de base de datos. Por ejemplo podemos citar al manejador de
base de datos DB2 10.5 with BLU Acceleration, la cual proporciona una solucin para la
parte transaccional y para la parte de analticos.

http://www-01.ibm.com/software/data/db2/linux-unix-windows/db2-blu-acceleration/

Volver arriba

Tipo de informacin que se puede almacenar


Cuando surgen las bases de datos el tipo de informacin que se poda almacenar era de tipo
estructurada. La informacin es almacenada en un objeto llamado Tabla la cual nos
permite organizar la informacin. Por ejemplo, la tabla de Empleados contiene
informacin relacionada al #Empleado, Nombre, Apellido, #Seguro Social, etc. Cada uno
de estos elementos en una base de datos recibe el nombre de Campo y el conjunto de
estos elementos recibe el nombre de Registro (Tambin llamado Columna y Rengln,
Hilera o Fila).

Figura 3.

Los tipos de datos que se pueden almacenar son diversos, pero los ms comunes son de tipo
Numrico, Decimales y tipo Texto. Conforme han evolucionado las bases de datos se han
expandido los tipos de datos que pueden almacenar. Por mencionar algunos tipos estn los
CLOB (Character Large Object) y BLOB (Binary Large Object). Los CLOB son utilizados
para almacenar documentos y los BLOB para almacenar una imagen o video.

Otro tipo de dato relevante hoy en da es el tipo de dato XML. Este es un tipo de dato
jerrquico porque parte de un nodo inicial o raz, y a su vez puede tener n niveles y
subniveles. Muchos manejadores de bases de datos puede manipular este tipo de dato; sin
embargo, no de forma nativa como lo hace DB2, es decir, el documento es almacenado
como un CLOB. La desventaja de almacenarlo como un CLOB implica dividir el
documento y guardarlo en diferentes reas (como si fuera un rompecabezas), y para
consultarlo se debe armar para mostrar su informacin (lo cual implica problemas de
desempeo).

Una ventaja competitiva que tiene DB2 es que los documentos XML se almacenan de
forma nativa, es decir, el documento se almacena dentro de la base de datos, lo que permite
consultar la informacin de forma directa y con mucho mejor desempeo. Incluso se
pueden crear ndices a nivel documento XML para consultar un nodo en especfico, y as
acceder ms rpido a la informacin. Otra ventaja es la compresin de documento XML lo
cual incrementa el ahorro en almacenamiento.

Figura 4.
Existen otras bases de datos que permiten almacenar diferentes tipos de documento, como
por ejemplo: Cloudant, el cual se vera ms adelante.

Con la evolucin en las tecnologas de la informacin y las nuevas necesidades en el


manejo de la informacin nace el concepto Big Data. Existen diferentes definiciones, pero
la ms sencilla es el manejo de grandes volmenes de informacin que vienen de diferentes
fuentes de datos (Estructurados, No estructurados, XML, HTML, etc.) de una manera
rpida sin afectar la disponibilidad de la informacin y operacin de los sistemas. Las
consultas hechas en Big Data ayudan al anlisis y a la toma de decisiones.

http://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/

Otra de las ventajas competitivas que tiene las bases de datos como DB2 e Informix es que
permite hacer la explotacin de la informacin que viene de diferentes fuentes permitiendo
as la integracin con otros sistemas y lenguajes que utilizan sentencias SQL y NoSQL.

https://www.ibm.com/developerworks/ssa/library/bd-datos-sql-y-nosql-en-db2/

Volver arriba

Informacin a travs del tiempo


Cuando se crea una base de datos y se inicia su operacin el volumen de la informacin es
mnima y el desempeo de la aplicacin y base de datos es ptima. Sin embargo conforme
pasa el tiempo el volumen de informacin incrementa y en consecuencia surgen los
siguientes problemas:

1. Problemas de espacio en disco.


2. Incrementos de costo en almacenamiento y procesamiento.
3. Problemas de desempeo en las consultas.
4. Fallas en el aplicativo afectando la disponibilidad de los datos.
5. Problemas con la base de datos y la prdida de informacin.
De los problemas anteriores surge la necesidad de hacer mejoras a las bases de datos y/o
crear arquitecturas para dar soluciones a los problemas anteriores. Se han implementado
varias soluciones a nivel Software y Hardware.

Uno de los principales problemas a solucionar es la disponibilidad y la prdida de la


informacin. En DB2 existen dos soluciones, la primera evita perder la informacin en caso
de desastres, contingencia, etc. y la segunda evita que la disponibilidad de la informacin se
vea afectada, es decir, la informacin estar disponible 24x7 (En todo momento). Estas
soluciones son:

1. HADR (High Availability and Disaster Recovery) Alta disponibilidad


2. PureScale Disponibilidad continua

Volver arriba

Qu es HADR?
Sus siglas en ingls significan High Availability Disaster Recovery. Es una caracterstica de
replicacin de datos que brinda una solucin de Alta Disponibilidad cuando surge una falla
parcial o total en uno de los servidores principales. Es una solucin que soporta un Servidor
como Primario y hasta tres Servidores como Secundarios. Si el servidor primario falla, uno
de los servidores secundarios tomar el control y pasar a ser ahora el servidor primario. La
replicacin de la informacin se hace a travs de los archivos log de transacciones.

Ventajas

Minimiza el impacto de interrupciones planeada y no planeadas.


Permite la actualizacin del software sin interrumpir la operacin.
Para el aplicativo es transparente, no se requiere modificar la aplicacin.
No se requiere Hardware especializado.
Fcil administracin y configuracin.

Figura 5.
Volver arriba

Qu es PureScale?
Es una arquitectura basada en Clster. Un Clster es un conjunto de varios ordenadores
unidos por una red de alta velocidad, de tal forma que es visto como un solo computador
ms potente. Es una caracterstica de DB2 que reduce el riesgo y los costos del crecimiento
del negocio al proporcionar capacidad extrema, disponibilidad continua y transparente para
el aplicativo. Capacidad extrema significa que puede crecer su sistema como sea necesario.

Ventajas

Evitar riesgos y costos en cambios a la aplicacin.


Diseado para sistemas que requieren de disponibilidad continua (24x7). Si uno o
varios miembros fallan la transaccin y operacin del sistema continua.
Utiliza la misma arquitectura del indiscutible estndar de Oro, los Sistemas Z.
Agregar o quitar miembros de una manera fcil.
No se requiere tunear la infraestructura de la base de datos.
Balanceo automtico de cargas de trabajo.
Construido y disponible en Power Systems y servidores System x.
El ncleo del sistema es una arquitectura de disco compartido.

Figura 6.
La implementacin de HADR o PureScale depender de las necesidades y capacidades de
cada empresa.

Otras soluciones han sido implementadas a nivel base de datos para hacer frente a los
problemas de performance. DB2 ofrece una gran variedad de alternativas para hacer frente
a los problemas de performance.

1. DPF (Database Partition Feature). Particionamiento de bases de datos.


2. Table Partitioning. Particionamiento de tablas.
3. MDC (Multi-Dimension Clustering). Convertir tablas en mltiples dimensiones.

Para tener un mejor entendimiento del tema de particionamiento se hace la analoga de la


frase divide y vencers. Es el mismo principio utilizado en estas caractersticas de DB2.

Una de las ventajas de estas caractersticas es que se hace un aprovechamiento del poder de
mltiples procesadores en mltiples nodos fsicos. Los datos que son consultados o
modificados son descompuestos automticamente y ejecutados en cada una de las
particiones. El uso de esta caracterstica es transparente para el usuario que ejecuta
sentencias SQL.

Ventajas

Menores Entradas/Salidas a disco.


Se centra en un subconjunto de datos.
Porciones pequeas dividida en ms procesadores.
Disponibilidad de datos ms rpido.
Mejor administracin.
Mantenimiento fcil para pequeas porciones de datos.

Volver arriba

Qu es DPF (Data Partitioning Feature)?


Es una caracterstica de DB2, la cual permite hacer el particionamiento de base de datos.
Con esta caracterstica se mejora el desempeo y la escalabilidad de grandes bases de datos.
Cuando existen grandes volmenes de informacin en una base de datos, esta es una de las
soluciones a implementar. Cada particin de base de datos tiene su propio conjunto de
recursos informticos incluyendo CPU, Memoria y unidades de almacenamiento. En un
ambiente DPF los registros de cada tabla son distribuidos en las diferentes particiones (DB2
utiliza un algoritmo para determinar en qu particin deber estar la informacin). DPF es
una caracterstica de escalabilidad.

Figura 7.

DPF acepta diferentes configuraciones:

1. Discos compartidos.
2. Discos dedicados.
3. Permite el uso de particiones lgicas y fsicas.
4. Los comandos para la administracin de la base de datos son ejecutados en cada una
de las particiones de forma automtica y transparente.
5. Es transparente para el aplicativo.

Figura 8.

Volver arriba

Qu es Table Partitioning?
Es el mismo concepto que DPF solo que esto aplica para tablas dentro de una base de datos,
es decir, es el particionamiento de los datos de una tabla en un subconjunto de datos. En la
mayora de los casos las bases de datos conservan informacin de muchos aos atrs
(histricos) lo que provoca que al ejecutar consultas sobre esa tabla el desempeo se vea
afectado y el consumo de los recursos sea mucho mayor.

Por ejemplo, si se ejecuta una consulta sobre un milln de registros tardar ms que si se
realiza sobre 100,000 registros. Supongamos que tenemos la tabla de Ventas la cual
contiene 10 millones de registros correspondiente a las ventas de 10 aos (2004,
2005...2014). Si consultamos informacin del ao 2005 probablemente el tiempo de espera
para mostrar la informacin ser alto. En cambio si se hace un particionamiento de las
ventas por ao, al consultar la informacin del ao 2005 el manejador de la base de datos
solo consultar sobre un milln de registros y no sobre los 10 millones de registros. Dicho
de otra manera el motor de la base de datos consultar solo la particin donde se encentran
las ventas del ao 2005.

Figura 9.
Ventajas

Incrementa el desempeo de las consultas.


Mejor optimizacin para los costos de almacenamiento.
Rpida creacin y/o eliminacin de particionamiento de datos.
No afecta la disponibilidad de los datos al agregar o quitar particiones.
Incrementa el tamao de las tablas. Las tablas estn limitadas en almacenar un
monto mximo de datos, utilizando Table Partitioning podemos incrementar el
tamao de la tabla mediante el uso de diferentes particiones.

Volver arriba

Qu es MDC (Multi-Dimension Clustering)?


Proporciona un mtodo elegante para permitir que los datos de una tabla puedan ser
agrupados fsicamente en varias dimensiones simultneamente de una manera flexible y
automtica. Esto puede mejorar mucho el desempeo de las consultas.

Ventajas

Reduce el gasto de mantenimiento en los datos tales como reorganizaciones y


mantenimiento de ndices durante la creacin, eliminacin y actualizacin de datos.
Pensado inicialmente para Data Warehouse y bases de datos con grandes volmenes
de informacin, pero tambin puede ser utilizado en bases de datos de tipo OLTP.

En ambientes Data Warehouse normalmente las consultas se hacen sobre grandes


volmenes de informacin lo que conlleva a tener problemas en los tiempos de respuesta.
Las consultas que se realizan siempre van relacionadas con fechas, clculos, productos,
regiones, tipos, reas geogrficas, etc. Por ejemplo, si nuestras consultas de Ventas siempre
son por Fecha, Tipo de producto y Forma de pago entonces podemos hacer el uso de
MDC para la tabla de Ventas para poder tener un mejor desempeo durante las consultas.
Cuando nosotros realicemos una consulta filtrando por Fecha del producto el manejador
de la base de datos utilizar solo una dimensin (un segmento de datos). Si en nuestra
consulta utilizamos los filtros por Fecha de venta y Tipo de producto entonces el
manejador de la base de datos utilizar dos dimensiones (dos Segmentos de datos) y as
sucesivamente. Similar a DPF el motor de la base de datos consultar segmentos
especficos de datos incrementando el desempeo en las consultas.

Figura 10.
Es importante mencionar que podemos hacer una combinacin de todas estas caractersticas
para enfrentar a los problemas que nos enfrentamos cuando hacemos consultas sobre
grandes volmenes de informacin. Hoy en da ya existen otras optimizaciones que se han
hecho al motor de DB2, el cual se podr ver ms adelante.

El segundo punto importante son los problemas comunes a los que se enfrentan las bases de
datos y las empresas, el incremento de los volmenes de informacin. Del lado de las bases
de datos implica problemas de desempeo al hacer consultas sobre grandes volmenes de
informacin y del lado de la compaa implica incrementos en los costos de
almacenamiento. De aqu surge la necesidad de implementar nuevos mecanismos para
reducir los tiempos y costos, y es aqu donde surge el tema de la compresin de datos.

Volver arriba

Qu es la Compresin de datos?
Es bsicamente la reduccin del volumen de informacin utilizando la menor cantidad
posible de espacio. Hay muchas tcnicas y algoritmos que se han implementando en las
bases de datos, sin embargo una ventaja competitiva de DB2 es que adicionalmente incluye
la compresin de los distintos tipos de objetos.

1. Compresin de registros.
2. Compresin de tablas.
3. Compresin de ndices.
4. Compresin de tablas temporales.
5. Compresin de objetos e imgenes.
6. Compresin de documentos XML.
7. Compresin de Log de transacciones.
8. Compresin de backup.

En este tema se ha avanzado mucho pero DB2 tiene el liderazgo. Ahora con el nuevo
concepto de bases de datos en memoria y con almacenamiento por columnas se puede
lograr mayores tasas de compresin, mejores a las que ya se venan obteniendo en
versiones previas.

http://www.ibm.com/developerworks/ssa/data/library/DB2BLU/

Ventajas

Reduce los costos de almacenamiento.


Incrementa el performance en las consultas.
Reduce la Entrada/Salida al disco.
Reduccin de costos de energa.
Trabajar con datos en memoria y con datos comprimidos.

En la siguiente figura se muestra un ejemplo de cmo se realiza la compresin con base a


patrones de repeticin. Para la compresin de datos se utiliza un diccionario donde se
almacenar un digito en hexadecimal que representar los datos que se repiten. Estos
dgitos en hexadecimal reemplazarn a los datos en la tabla.

Figura 11.
Uno de los costos ms altos y relevantes es cuando consultamos informacin con acceso a
discos. Dependiendo de las caractersticas del disco ser la velocidad con que los datos
sern recuperados por la base de datos y devueltos al usuario final. Al comprimir datos se
reducen las Entradas/Salidas al disco, debido a que con menos acceso al disco se obtendrn
mayores volmenes de informacin. Existen diferentes tipos de discos, los discos duros o
tambin llamados discos rgidos que son discos de almacenamiento de datos no voltil que
emplean un sistema de grabacin magntica para almacenar datos digitales; y los discos de
estado slido conocidos como SSD (Solid State Disk) que es un dispositivo de
almacenamiento de datos que puede estar construido con memoria voltil y no voltil. Estos
discos son muy rpidos y consumen menos energa y la tendencia indica que en un futuro
sustituirn a los discos duros. Su principal inconveniente es que son caros.

Volver arriba

Qu es un Data Warehouse?
Es un almacn de datos que es utilizado para explotar grandes volmenes de informacin
(entre ellos informacin histrica) para efectos de anlisis que ayuden a la toma de
decisiones en las grandes empresas. Las bases de datos orientadas a Data Warehouse no
contienen datos actuales, es decir, no es una base de datos transaccional OLTP, es un tipo
de base de datos OLAP. Se ha mencionado que las bases de datos tienen muchos retos y
uno de ellos es que no se puede utilizar la misma base de datos para transacciones y para
efectos de anlisis. Esto no se puede realizar por las limitantes que se pueden tener con el
Hardware, Software, Memoria, dispositivos de almacenamiento, procesadores, etc. Debido
a lo anterior se debe especificar qu tipo de base de datos debemos utilizar (OLTP u
OLAP).

Con las nuevas necesidades y el avance tecnolgico se han modificado las bases de datos y
tambin se han creado nuevas arquitecturas de solucin (DB2 10.5 with BLU Acceleration,
Informix, PureData for Analytics entre otros).

Las empresas cuando toman la decisin de crear un Data Warehouse deben realizar un
profundo anlisis de la informacin que desean analizar y conocer cuales sern los datos a
migrar. Los datos que alimentan a un Data Warehouse pueden venir de diferentes fuentes e
incluso de diferentes proveedores de bases de datos. Para hacer la integracin de la
informacin se requieren de herramientas que nos permitan hacer la concentracin de la
informacin en el Data Warehouse. Las herramientas son variadas y existen diferentes
proveedores, estas son conocidas como herramientas ETL.

Volver arriba

Qu es un ETL?
Sus siglas en ingls significan Extract Transform Load. Extract es el proceso de extraer la
informacin que puede venir de diferentes fuentes de datos o bases de datos de distintos
proveedores. Por ejemplo, consolidar los presupuestos de Mxico y Canad, cuya
informacin est almacenada en una base de datos Informix y MySQL respectivamente. A
travs de una conexin va ODBC puede hacer la extraccin de la informacin para
concentrarla en el Data Warehouse.

Transform es el proceso de transformar los datos que se estn extrayendo antes de ser
almacenados en el Data Warehouse. Tomando el ejemplo anterior, la transformacin sera
hacer los clculos de los presupuestos de Mxico y Canad por ao, mes y regin.

Por ltimo, el Load es el proceso de la carga de los datos ya transformados hacia el Data
Warehouse. En el ejemplo anterior estamos almacenando los presupuestos ya calculados de
las regiones Mxico y Canad por ao, mes y regin.

Figura 12.
Una herramienta que ayuda en este tipo de actividades es el producto de IBM InfoSphere
DataStage.

http://www-03.ibm.com/software/products/en/ibminfodata/

Volver arriba

Qu es un Data Mart?
Es simplemente un subconjunto de datos de un Data Warehouse para un rea especfica. En
un Data Warehouse se tiene la informacin concentrada de una empresa y de todos los
departamentos. Los Data Mart nos permiten hacer una separacin de los datos para
funciones especficas, usuarios especficos y reas especficas. La informacin que alimenta
a un Data Mart tambin pueden provenir de una base datos transaccional. Esta es una de las
nuevas caractersticas del producto DB2 10.5 with BLU Acceleration. La administracin
simple de DB2 10.5 with BLU Acceleration permite generar Data Mart de una forma rpida
para ser capaz de reaccionar a los requerimientos del negocio. DB2 tambin permite la
ejecucin de reportes analticos en tiempo real para ayudar a la toma de decisiones.

Figura 13.

http://www-01.ibm.com/software/data/db2/linux-unix-windows/db2-blu-acceleration/

Volver arriba
Qu modelo de datos se utiliza en un Data Warehouse o
Data Mart?
El modelo de datos que se utiliza en una base de datos de tipo OLTP es un modelo
relacional donde existe una relacin de datos de cero a uno, de uno a uno y de uno a
muchos. Para relacionar y explotar la informacin en un modelo relacional se requiere de la
creacin de ndices primarios y compuestos que en un ambiente Data Warehouse no es
viable por el volumen de informacin que se utiliza. Los bases de datos para Data
Warehouse o Data Mart manejan muchos volmenes de informacin y dependiendo del
diseo de cada una de estas, los datos ya estarn calculados o precalculados lo que permite
que los tiempos de respuestas sean mucho mejor. Uno de los modelos comnmente
utilizados es el modelo Star Schema o un esquema en estrella. Un esquema en estrella es
aquel que tiene una tabla de hechos tambin llamada Fact Table y alrededor sus
dimensiones. Las dimensiones estn relacionadas a la tabla de hechos a travs de una llave
primaria. Este tipo de esquema es ideal para bases de datos de tipo OLAP y Data Mart por
su simplicidad y la velocidad para hacer anlisis. DB2 tiene muchas optimizaciones
internas para hacer el uso de este tipo de esquemas. Por ejemplo ha implementado el uso
del nuevo mtodo Zigzag.

Figura 14.

Volver arriba
Informix Warehouse Accelerator - IWA
Sus siglas en ingls son Informix Warehouse Accelerator el cual es un optimizador de
cargas de trabajo que permite la integracin en los procesos operacionales para
conducir estrategias ganadoras. Acelera las consultas con tiempos de respuestas sin
precedentes. El IWA es una tecnologa de vanguardia para mejorar el performance y
ofrece las siguientes capacidades:

1. Compresin extrema necesaria porque la memoria RAM es el factor limitante.


2. Base de datos por rengln para cargas de datos transaccionales (OLTP) y por
Columna para accesar a datos va el acelerador para OLAP.
3. Tercera generacin de bases de datos en memoria. Evita la Entrada/Salida al disco
debido a que la compresin permite tener los datos residentes en memoria.
4. Frecuencia de particionamiento. Habilitado para el acceso efectivo de los datos
comprimidos.
5. Paralelismo masivo. Todos los procesadores son utilizados en las consultas.
6. Evaluacin de predicados con datos comprimidos lo que incrementa el desempeo
en las consultas.
7. Actualizacin automtica a nivel de particin lo cual permite refrescar en los Data
Mart solo los datos que han cambiado.
8. Soporte para datos de series de tiempos. Se pueden analizar en memoria los datos
que vienen de censores inteligentes, medidas, localizacin GPS, u otros dispositivos
en tiempo real.

Figura 15.

Volver arriba

Qu son los PureSystem?


Son una nueva clase de sistemas integrados expertos que estn diseados, prefabricados,
configurados y optimizados para ejecutar cargas de trabajo muy complejas y especificas.
Las ventajas que ofrecen este tipo de sistemas son:

1. Construido con base a la coleccin de conocimientos colectivos de miles de


implementaciones, mejores practicas, experiencia de socios de negocios y
proveedores.
2. Integrados por diseo. Todos los componentes de Hardware y Software estn
perfectamente integrados y sincronizados para las cargas de trabajo que va a
ejecutar.
3. Proporciona una perfecta sincrona entre el Hardware y Software ya que vienen
previamente diseados, integrados, configurados. Al instalarlo y conectarlo a la red
usted tiene un sistema listo para operar.
4. Se obtiene valor en cuestin de das ya que la experiencia de los expertos est
incorporada junto con la integracin de los sistemas.

Familia de los PureSystem

Existen tres familias de PureSystem los cuales estn diseados para dar solucin a los
problemas que enfrentan los diferentes tipos de cargas de trabajo, cambiando la economa y
la experiencia de las tecnologas de la informacin.

PureFlex: Estos sistemas proporcionan servicios de infraestructura y permiten


construir su propia aplicacin o entornos de infraestructura en un entorno escalable,
de alta disponibilidad y fcil de mantener. Si hay solo una plataforma y desea
construir cualquier aplicacin independientemente de los sistemas que tenga,
PureFlex es la solucin.
PureApplications: Esta basado en los mismos principios de PureFlex y proporciona
servicios de plataforma. Se integra todo el Software y las herramientas que se
necesitan para construir una plataforma de aplicaciones altamente escalable. El
objetivo es ofrecer una plataforma de aplicaciones tipo Web. Si usted tiene
aplicaciones Web o aplicaciones que utilizan memoria y tienen interaccin con la
base de datos entonces PureApplications es la solucin.
PureData: Por ultimo, estos sistemas son desarrollados para ofrecer servicios de
datos a las aplicaciones independientemente de que se trate de aplicaciones
transaccionales como punto de venta o CRM, o sistemas de anlisis como perdida
de clientes y/o administracin de campaas. Para datos especficos, aplicaciones
OLTP, aplicaciones y sistemas de anlisis profundo entonces PureData es la
solucin.

Cuando hablamos de los sistemas PureData tenemos diferentes dispositivos PureData,


porque sus aplicaciones de datos, el acceso a los tipos de datos y las transacciones son muy
diferentes. Y es aqu donde se ofrecen nuevos dispositivos.

Figura 16.
Sistemas PureData para Hadoop

Este dispositivo est optimizado para almacenar, catalogar, analizar y transformar grandes
volmenes de informacin en muchos formatos diferentes. Tambin se puede utilizar para
mantener mayores datos relacionados que se acceden con menor frecuencia desde un Data
Warehouse, por lo tanto mantiene un fcil acceso sin ocupar espacio y recursos en el Data
Warehouse. Optimizado tambin para el analizar archivos en lnea.

http://www-01.ibm.com/software/data/puredata/hadoop/

Sistemas PureData para transacciones

Este dispositivo est diseado para el comercio electrnico, comercio Web transaccional.
Como por ejemplo, las aplicaciones puntos de venta donde se escanea un cdigo y a travs
de ese l se determina su precio. Tambin conocido como servicios de cluster de bases de
datos optimizado para el rendimiento y escalabilidad transaccional.

http://www-01.ibm.com/software/data/puredata/transactions/

Sistemas PureData para analticos

Este dispositivo tiene una optimizacin diferente debido a que hay una interaccin con la
base de datos, con la memoria, y optimiza de forma diferente las cargas de trabajo para
anlisis y Data Warehouse. Esto es para aplicaciones como el anlisis de clientes, anlisis
predictivo, alta velocidad de anlisis en datos (petabyte) con la mxima simplicidad. Esto
est desarrollado con la Tecnologa de Netezza. El sistema N200x sigue ofreciendo:

1. Mismas optimizaciones para grandes volmenes de datos.


2. Ninguna administracin tctil.
3. Ms de 150 funciones analticas optimizadas.
4. Rendimiento optimizado de anlisis de Big Data.
5. Administracin sencilla para un despliegue rpido y fcil.
6. Tres veces ms rpido que el modelo N1001.
7. 50% ms de capacidad de datos por rac. Esto ayuda a optimizar la eficiencia del
Data Center sin incrementar la potencia o los requisitos de refrigeracin.

http://www-01.ibm.com/software/data/puredata/analytics/

Sistemas PureData para anlisis de operaciones

Este dispositivo da una solucin como mezcla de la informacin de lo que usted tiene, lo
que usted sabe y los anlisis, pero usted tiene bsquedas puntuales. Por ejemplo, si usted
esta buscando la deteccin de un fraude en tiempo real en el que est haciendo profundas
exploraciones a muchos datos e identifica que puede haber problema en algunos registros,
usted luego realiza una bsqueda puntual a esos registros. Est optimizado para equilibrar
el alto rendimiento para el anlisis de datos y optimizado para equilibrar el rendimiento
operativo en tiempo real.

http://www-01.ibm.com/software/data/puredata/operationalanalytics/

Cuando se tiene un nmero de consultas puntuales de tipo transaccional se debe inclinar


hacia los sistemas PureData para Anlisis de Operaciones. Si necesita consultas muy
complejas de alta velocidad entonces se debe inclinar por PureData para Analticos (Este es
el sistema basado en Netezza).

Volver arriba

La tendencia Bases de datos en Memoria


Como hemos visto, conforme pasa el tiempo las necesidades del negocio cambian y crecen,
por lo tanto se han agregado nuevas caractersticas a las bases de datos para hacer frente a
los problemas de alta disponibilidad, desempeo, seguridad, ahorros en almacenamiento,
etc. Uno de los recursos ms costoso es el almacenamiento de la informacin y hoy con el
nuevo concepto de Big Data la necesidad de manejar grandes volmenes de informacin se
ha incrementado. El acceso a disco es el acceso ms lento para obtener la informacin.
Actualmente el costo de la memoria ha disminuido y la tendencia es hacer un mejor uso de
la misma porque se ha demostrado que el rea principal de una base de datos para obtener
un mejor desempeo es la memoria, al tener los datos en memoria, el acceso a la
informacin se realiza de una manera ms rpida. Las bases de datos cuando buscan la
informacin en el disco para despus subirla a memoria genera cuellos de botella, esto
depender tambin del tipo de disco que se tenga. En la seccin previa se coment que el
uso de discos de estado slido SSD es tambin la tendencia, pero por el momento son muy
costosos y no es una solucin viable para muchas empresas.

Para hacer frente al mejor uso de la memoria y entregar mejores resultados en bases de
datos OLAP, en DB2 e Informix se han agregado nuevas caractersticas que permiten no
solo tener los datos en memoria sino que tambin permite obtener mayores tasas de
compresin de datos, lo cual permite manipular mayores volmenes de informacin. La
tendencia es tener ms datos en memoria de manera comprimida, con lo anterior se reduce
el acceso a disco y se incrementa el desempeo para el anlisis de la informacin.

http://www-01.ibm.com/common/ssi/cgi-bin/ssialias

Volver arriba

Tipos de OLAP
ROLAP
Sus siglas en ingls significan Relational OLAP. En ROLAP los datos son almacenados en
un Star Schema con tablas de Hechos y Dimensiones. Las consultas SQL analticas tienen
un gran nmero de Joins, Scan y enormes cantidades de datos agregados. Por ejemplo DB2
Cube Views y Cognos Framework Manager with Relational Datasource.

Figura 17.

MOLAP

Sus siglas en ingls significan Multidimentional OLAP. Es la descripcin de un servidor


OLAP que almacena el cubo completo OLAP en memoria. Normalmente las agregaciones
son precalculas y almacenadas en memoria. Esto trae como resultado respuestas muy
rpidas a consultas de datos y permite una alta concurrencia en ejecucin de consultas.
Ejemplo Cognos Power Cubes, Cognos TM1 y Essbase.

Figura 18.
HOLAP

Sus siglas en ingls significan Hybrid OLAP. Como sus siglas lo indican es una
combinacin de ROLAP Y MOLAP. Combina muchas de las caractersticas de ROLAP Y
MOLAP donde no existe lmite del tamao de datos como ROLAP y proporciona todas las
capacidades para obtener detalles de la informacin, con una alta concurrencia y alto
rendimiento para los datos solicitados. Si los datos solicitados estn en cache no se realiza
la consulta en la base de datos, de lo contrario la consulta se ejecutar en la base de datos.
Ejemplos Cognos 10.1.1 DMR y Cognos Dynamic Cubes.

Figura 19.
Volver arriba

Qu es IBM BLU Acceleration for Cloud?


Es una solucin de Data Warehouse y Anlisis en la Nube. El concepto de Nube de una
manera simple son los servicios informticos que se ofrecen a travs de Internet. Una de las
ventajas de estas arquitecturas es que las empresas ya no requieren de una infraestructura
propia y permite a los usuarios accesar a las aplicaciones desde cualquier punto donde se
encuentren. Para los programadores permite el rpido desarrollo de aplicaciones.

http://bluforcloud.com/

Volver arriba

Qu es Cloudant?
Es una base de datos de como servicio (DBaaS) la cual permite centrarse en el desarrollo
rpido de aplicaciones en Internet y aplicaciones mviles en lugar de preocuparse por la
expansin y gestin de la base de datos por su cuenta. Tiene alta disponibilidad, es duradera
y contiene amplias funciones. El almacn de datos se construye para la escalabilidad y est
optimizada para lecturas y escritura de datos simultneas. Maneja tambin una ampla
variedad de tipos de datos estructurados y no estructurados entre ellos JSON, textos
completos y geoespacial.

Figura 20.

https://cloudant.com/

La base de datos Cloudant es la primera plataforma de gestin de datos para aprovechar la


disponibilidad, escalabilidad, y el alcance de la Nube para crear una red de distribucin
global de datos (DDN) que permita a las aplicaciones estar disponibles para los usuarios
donde quiera que se encuentre.

Figura 21.
Volver arriba

Qu es JSON?
Sus nomenclaturas en ingls significan JavaScript Object Notation, el cual es un formato
ligero para el intercambio de datos. JSON est basado en un subconjunto del lenguaje de
programacin JavaScript. Su simplicidad ha hecho que su uso se est ampliando, algo
similar al manejo de datos tipo XML donde es fcil de implementar, de leer y de utilizar.
Tambin es independiente del lenguaje de programacin ya que muchos lenguajes tienen
caractersticas para mapear con JSON. Se emplea en ambientes donde el flujo de los datos
es de vital importancia como por ejemplo Google, Yahoo, etc. que atienden a millones de
usuarios. JSON est soportado en DB2 10.5 e Informix 12.1 con el cual se permite guardar,
consultar y actualizar documentos. Combina datos desde otros sistemas con datos
tradicionales en la misma base de datos, como por ejemplo las aplicaciones Web o mviles.
JSON da el poder a los programadores de reducir la dependencia de las tecnologas de la
informacin, es decir, no se necesitan crear esquemas y tampoco tablas. Ejemplo de un
simple documento:

{
"nombre" :"Daniel",
"apellido" :"Anguiano",
"edad" : "40",
"direccion":
{
"calle" :"Prados 100",
"ciudad :"Mexico",
"cp" :"52034"
},
"telefono" :
[
{
"tipo" :"celular",
"numero" :"5564239823"
}
{
"tipo" :"trabajo",
"numero" :"5553706234"
}
]
}

La importancia de JSON es que ayuda a habilitar la nueva era de aplicaciones mviles,


sociales y Nube convirtindose as en uno de los lenguajes para la Web. Solo soporta seis
tipos de valores y son:

1. Cadena (String)
2. Numrico
3. Booleano
4. Valores especiales como el valor nulo
5. Objetos
6. Arreglos

No soporta estructuras de datos cclicos, es decir, utilizar un conjunto de acciones que se


pueden ejecutar una o varias veces (Para For 1 to 10 , Mientras While v_cont
100, Repetir Repeat ).

Volver arriba

Internet de las cosas (IoT)


Hoy, el mundo esta hper conectado con diferentes fuentes de informacin (redes sociales,
unidades mviles, censores y todo lo que est a nuestro alrededor) lo que est provocando
estar en contacto con mucha informacin. Todo este mundo de informacin hace el Internet
de cosas creando nuevas oportunidades en muchas reas. El objetivo no es almacenar
grandes volmenes de informacin sino actuar sobre la misma a travs del anlisis de una
forma rpida para el aprovechamiento de la misma. El objetivo es darle valor a la
informacin para ofrecer lo que quiere el consumidor, para identificar fraudes, optimizar
reabastecimiento de inventarios, etc. El Internet esta accesible 24x7 los 365 das del ao y
la informacin est ah como una oportunidad de hacer negocio. Este mundo de
informacin no puede ser explotada por cualquier manejador de base de datos lo cual hace
complicado el manejo y anlisis de este mundo de informacin. Las razones son las
siguientes:

1. Los datos son generados de diferentes sistemas, con formatos complejos, diferentes
fuentes y tipos de datos, estructurados, no estructurados y vienen de diferentes
contextos.
2. Son difciles de analizar por el volumen de informacin, requieren ms
procesamiento, modelado de datos, anlisis complejo de textos y correlacin de
datos a travs de los distintos.
3. Usted necesita ser capaz de visualizar la informacin para actuar sobre ella. Se
requieren sofisticados algoritmos de bsqueda para tomar decisiones.

Volver arriba

IBM Informix Base de datos inteligente para IoT


IBM Informix es una base de datos inteligente para resolver los problemas de IoT. Sus
caractersticas nicas le permiten que funcione en dispositivos perifricos y tambin en la
Nube. En la Nube, Informix tiene la escalabilidad y el rendimiento para servir como
plataforma de anlisis avanzados que consolidan la informacin de millones de
dispositivos. Tambin tiene la capacidad de proporcionar inteligencia local: Consolidacin
de datos locales, anlisis y toma de decisiones locales, tiene el almacenamiento en cache si
es necesario, el control y la replica a la nube para copias de seguridad y recuperacin.
Donde quiera implementarlo obtendr facilidad de uso, estabilidad y un conjunto de
caractersticas que la convierten en la solucin de base de datos Simplemente Potente
para Internet.

Figura 22.

Volver arriba

Conclusin
El tema de bases de datos es muy amplio de explorar y difcil de seleccionar cul es la
mejor arquitectura a utilizar. Normalmente se separan las bases de datos para operaciones
Transaccionales y para Analticos. Es necesario hacer un buen anlisis del tipo de operacin
que se va a ejecutar en la base de datos para poder elegir la arquitectura ms adecuada y as
realizar un buen uso de las capacidades de las bases de datos para obtener los mejores
resultados. Para las compaas es difcil mantener un equilibrio entre invertir en Hardware
y Software. Ya hemos visto diferentes tipos de soluciones que se adaptan a los distintos
giros de empresas. La compresin de datos, el manejo de grandes volmenes de
informacin (Estructurados y No Estructurados), datos en memoria, lenguajes de
programacin que utilizan sentencias SQL y NoSQL, sistemas hbridos (Transaccionales y
Analticos), reduccin de costos de almacenamiento y los tiempos mnimos de respuesta
para obtener un resultado han sido los motivos para el desarrollo de nuevas arquitecturas a
nivel Software y Hardware.

Volver arriba

Referencias
Information Center DB2 10.5

DB2 with BLU Acceleration

DB2 PureScale

DB2 High Availability

Data Warehouse Analytics

Big Data and Analytics

PureSystem

Comentarios
Ingrese o regstrese para publicar un comentario.

Agregar comentario :

Nota: los elementos en HTML no son soportados dentro de los comentarios.

Notificarme cuando se aada un comentarioquedan 1000 caracteres

Comentarios totales (2)

Seria Genial si existiera un documento pdf de este tema, muy genial.

Posteado por Fidelito1996 el 19-12-2015

Reportar abusos
Una redaccin muy clara y til. Muchas gracias

Posteado por emmatr el 26-09-2015

Reportar abusos

Comienza a utilizar IBM Bluemix

Guas rpidas de inicio y demos de la plataforma abierta en la Nube de IBM.

Sbete a la Nube de IBM

Abre el potencial del cmputo en la nube con productos y servicios de IBM.

Arquitectura de Nube Abierta de IBM

Al cambiar cmo se manejan los negocios y la sociedad, la computacin en nube


est abriendo gigantescas avenidas de innovaciones.

Volver arriba

You might also like