You are on page 1of 18

SISTEMAS

OPERATIVOS
BIG DATA
ING. JOSE RIVERA PLEITEZ
UNIVERSIDAD FRANCISCO GAVIDIA

ESCOBAR SANCHEZ, JOSE DANILO ES100112


GALDAMEZ CASTILLO, JUAN DANIEL
GC100212
MONTERROSA DELGADO, OSCAR ARMANDO
MD100112
PEREZ BELTRANENA, CARLOS JOSE PB100112
RAMIREZ MARQUEZ, JOSUE DONALDO
RM100312

SITUACION ACTUAL
SITUACION PROBLEMTICA:
Gracias al gran avance que hay en el mundo tecnolgico, las grandes empresas
se van enfrentado a nuevos desafos con los que podrn analizar, descubrir y
entender ms que con lo que sus mtodos habituales les reportan sobre la
informacin al respecto, as como en los ltimos aos el enorme crecimiento de
las aplicaciones mviles como las redes sociales, han sido parte importante dentro
de las decisiones de negocio en las empresas. ste trabajo de investigacin tiene
como cometido la introduccin (si es que no se tiene), en el concepto de Big Data
y describir algunas caractersticas de los componentes principales que constituyen
una solucin de este tipo para su instalacin o administracin.

PLANTEAMIENTO DEL PROBLEMA:


La primera gran pregunta entonces puede ser: Qu es Big Data y porqu se ha
vuelto tan importante? en trminos generales nos referiremos a la Big Data como
la tendencia hacia el avance de la tecnologa que facilita el camino para el
entendimiento y la toma de decisiones. Usada mayormente para describir enormes
cantidades de datos (estructurados, no estructurados y semi-estructurados) que
sera largo y tedioso adems de costoso cargarlos a una base de datos relacional
para su respectivo anlisis. Por ello, el concepto de Big Data aplica para toda la
informacin que no puede ser procesada o analizada por los mtodos comunes
del tratado de datos. Eso s que, Big Data estamos diciendo o denominando una
cantidad especfica de datos, por lo general es usado cuando nos referimos en
trminos de petabytes y exabytes de datos. Es aqu cuando nos preguntamos:
Cunto es demasiada informacin para que sea clasificada, procesada y
analizada usando Big Data? Vemoslo en trminos de bytes:

Gigabyte = 109 = 1,000,000,000


Terabyte = 1012 = 1,000,000,000,000
Petabyte = 1015 = 1,000,000,000,000,000
Exabyte = 1018 = 1,000,000,000,000,000,000

Aparte del enorme volumen de informacin, existe en una gran variedad de datos
que podran ser representados de muchas maneras en el mundo.
Debemos comprender que las bases de datos comunes y corrientes son parte vital
para tener alguna solucin analtica. De hecho, se vuelve mucho ms vital cuando
se usa a la par de la plataforma de Big Data.

JUSTIFICACION DE LA INVESTIGACION:
En un mundo ideal, Big Data debera permitir a los servicios financieros obtener
informacin ms detallada sobre sus propios negocios. Debera tambin permitir a
los bancos de inversin tener una mayor visibilidad sobre su actividad comercial y
as ser capaces de actuar de forma ms rpida y eficaz a la hora de poner en
marcha nuevas estrategias; los bancos minoristas, por su parte, deberan ser
capaces de comprender mucho mejor las actividades de sus clientes y estar mejor
equipados para crear una conexin mucho ms personalizada con ellos.
Sin embargo, en el mundo real, las compaas de servicios financieros se
encuentran en niveles de desarrollo muy diferentes en lo que se refiere a la
adopcin de las tecnologas Big Data que les permitiran lograr estos objetivos. De
hecho, menos de un 10 % de los bancos ha puesto en funcionamiento casos de
uso de Big Data. Si bien algunas instituciones han empezado a usar tecnologas
big data para dar forma a su estrategia empresarial, esto no puede decirse del
sector en su conjunto.
Una ventaja significativa de las tecnologas de Big Data es que pueden adaptarse
a unidades de negocio muy diversas. As, los distintos departamentos de los
grandes bancos pueden personalizar las tecnologas de Big Data ms adecuadas
para sus necesidades de negocio. Por ejemplo, el director de operaciones de una

organizacin mundial puede necesitar medir los ndices de rendimiento (KPI) clave
de toda la empresa a fin de reducir costes. Las arquitecturas Big Data son
necesarias para gestionar con eficiencia los grandes volmenes de datos
transaccionales de todo tipo que posee una empresa. Hablamos de decenas de
millones de lneas de datos diseminadas por muchas reas de negocios distintas.
Tambin vemos cmo las tecnologas de Big Data pueden incorporarse a los
sistemas tradicionales de gestin de datos en toda la empresa. La integracin con
servicios como los registros de operaciones de clases de activos y los datos de
referencia resultan fundamentales para cualquier solucin de datos en banca.

OBJETIVOS:
OBJETIVO GENERAL:

Probar que el uso prctico, la Big Data dentro del mundo corporativo tiene
un gran auge por su gran ayuda a la toma de decisiones.

ONJETIVOS ESPECFICOS:

Analizar las mejores propuestas para el manejo de Big Data dentro del
mundo de la informtica.

Mostrar los grandes beneficios dentro del mundo de los negocios que la
buena administracin de la Big Data trae mltiples beneficios.

Probar desde el punto de vista tecnolgico cmo instalar las diferentes


plataformas de la Big Data.

ALCANCES Y DELIMITACION DE LA INVESTIGACION:


Se entiende que para ste trabajo de investigacin veremos la instalacin o
configuracin de la Big Data en las diferentes plataformas que existen para ella,

as mismo indagaremos en lo que tenga que ver con la Big Data y sus usos dentro
del mundo de los negocios y el mrketing.

HIPOTESIS:
As como en todo nuevo avance de la tecnologa, existen teoras o hiptesis sobre
ellos, y la Big Data no es la excepcin. As que a continuacin veremos tres
hiptesis que encontramos, que nos dicen que no es la Big Data.

Big Data no puede predecir el futuro:


Big Data y todas sus herramientas de anlisis, comentarios, experimentos
cientficos y visualizaciones no te pueden decir lo que suceder en el
futuro. Por qu? Los datos que recoja proceden enteramente del pasado. An
tenemos que llegar al punto en el que podemos acumular puntos y valores de
datos del futuro.
Podemos analizar lo que sucedi en el pasado y tratar de extraer tendencias entre
las acciones y los puntos de decisin y sus consecuencias, sobre la base de los
datos, y podramos usar esa adivinanza que, en circunstancias similares,
produciran resultados similares. Pero no podemos predecir el futuro.

Big Data no puede sustituir sus valores

Big Data es un pobre sustituto de los valores, los usos y normas de su vida y de
los esfuerzos de la compaa para operar. Sus opciones en cuestiones de fondo
pueden ser ms cristalizada, y puede ser ms fcil y clara para solucionar las
ventajas y desventajas de las diferentes lneas de accin, pero los datos en s no
puede ayudarle a interpretar cmo ciertas decisiones se comparan con las normas
que establezca para usted y para la compaa.

Los datos pueden pintar todo tipo de imgenes, tanto en las cifras en s mismas y
por medio de la ayuda de software de visualizacin. Su personal puede crear
muchos escenarios sobre cualquier tema, pero los resultados son simplemente
eso, una proyeccin. Su trabajo como ejecutivo, y como CIO es hacer este tipo de
herramientas y con el personal disponible dentro de su negocio, debe conciliar
realidades con los datos y los valores dentro de la compaa.

Big Data no puede resolver problemas


He aqu el viejo dicho: Cuando usted es un martillo, todo parece un clavo. Una vez
que usted comienza a tener cierto xito utilizando grandes volmenes de datos
para predecir y resolver problemas de negocios, es inevitable que haya una
tentacin de pedir los datos cada vez que tiene un problema o un tema sobre el
que una resolucin no es clara.

Como se mencion antes, los datos pueden presentarse con ms y mejores


opciones y, tal vez, dejar en claro lo que puede pasar con cada una de esas
alternativas. A veces, sin embargo, los datos no son absolutos, y ah es cuando
se utiliza a los trabajadores.

MARCO TEORICO:
Comenzaremos dando una breve introduccin y explicacin al concepto de Big
Data. Big Data son grandes en cantidad, se capturan a un ndice rpido, y son
estructurados o no estructurados, o alguna combinacin de lo de arriba. Estos
factores hacen que los Big Data sean difciles de capturar, extraer, y gestionar
usando mtodos tradicionales. Hay tanta publicidad en sta espacio que podra
haber un amplio debate tan solo en relacin a la definicin de Big Data.
El uso de la tecnologa Big Data no se restringe a grandes volmenes. Los
ejemplos en este artculo usan pequeos ejemplos para ilustrar las posibilidades

de la tecnologa. A partir del ao 2012, los clsteres que son grandes estn en el
rango de 100 Petabytes.

Los Big Data pueden ser tanto estructurados como no estructurados. Las bases de
datos relacionales tradicionales, como Informix y DB2, proporcionan soluciones
comprobadas para datos estructurados. A travs de la extensibilidad, tambin
gestionan datos no estructurados. La tecnologa Hadoop trae tcnicas de
programacin nuevas y ms accesibles para trabajar en almacenamientos de
datos masivos con datos tanto estructurados como no estructurados.

EL ORIGEN DE LOS DATOS

Los seres humanos estamos creando y almacenando informacin constantemente


y cada vez ms en cantidades astronmicas. Se podra decir que si todos los bits
y bytes de datos del ltimo ao fueran guardados en CDs, se generara una gran
torre desde la Tierra hasta la Luna y de regreso.
Esta contribucin a la acumulacin masiva de datos la podemos encontrar en
diversas industrias, las compaas mantienen grandes cantidades de datos
transaccionales, reuniendo informacin acerca de sus clientes, proveedores,
operaciones, etc., de la misma manera sucede con el sector pblico. En muchos
pases se administran enormes bases de datos que contienen datos de censo de
poblacin, registros mdicos, impuestos, etc., y si a todo esto le aadimos
transacciones financieras realizadas en lnea o por dispositivos mviles, anlisis
de redes sociales (en Twitter son cerca de 12 Terabytes de tweets creados
diariamente y Facebook almacena alrededor de 100 Petabytes de fotos y videos),
ubicacin geogrfica mediante coordenadas GPS, en otras palabras, todas
aquellas actividades que la mayora de nosotros realizamos varias veces al da
con nuestros "smartphones", estamos hablando de que se generan alrededor de
2.5 quintillones de bytes diariamente en el mundo.
1 quintilln = 10 30 = 1,000,000,000,000,000,000,000,000,000,000

De acuerdo con un estudio realizado por Cisco, entre el 2011 y el 2016 la cantidad
de trfico de datos mviles crecer a una tasa anual de 78%, as como el nmero
de dispositivos mviles conectados a Internet exceder el nmero de habitantes
en el planeta. Las naciones unidas proyectan que la poblacin mundial alcanzar
los 7.5 billones para el 2016 de tal modo que habr cerca de 18.9 billones de
dispositivos conectados a la red a escala mundial, esto conllevara a que el trfico
global de datos mviles alcance 10.8 Exabytes mensuales o 130 Exabytes
anuales. Este volumen de trfico previsto para 2016 equivale a 33 billones de
DVDs anuales o 813 cuatrillones de mensajes de texto.
Pero no solamente somos los seres humanos quienes contribuimos a este
crecimiento enorme de informacin, existe tambin la comunicacin denominada
mquina a mquina (M2M machine-to-machine) cuyo valor en la creacin de
grandes cantidades de datos tambin es muy importante. Sensores digitales
instalados en contenedores para determinar la ruta generada durante una entrega
de algn paquete y que esta informacin sea enviada a las compaas de
transportacin, sensores en medidores elctricos para determinar el consumo de
energa a intervalos regulares para que sea enviada esta informacin a las
compaas del sector energtico. Se estima que hay ms de 30 millones de
sensores interconectados en distintos sectores como automotriz, transportacin,
industrial, servicios, comercial, etc. y se espera que este nmero crezca en un
30% anualmente.

APACHE HADOOP:
Para poner en contexto lo que es Apache Hadoop podemos decir que se trata de
un framework opensource escrito en Java utilizado principalmente para ejecutar
aplicaciones distribuidas bajo un cluster de mquinas 'commodity'.
Dispone de un sistema de archivos propio: el HDFS (Hadoop Distributed File
System). Se trata de un sistema de archivos distribuido en cada nodo del cluster.
Utiliza un tamao de bloque de entre 64Mb y 128Mb y est pensado para trabajar
con grandes ficheros de datos. Est basado en el Google File System (GFS)

creado en 2003 ya que en ese momento Google comprob que los sistemas
utilizados hasta entonces para tratar con toda la informacin de que disponan no
eran suficientes. Necesitaban un sistema de ficheros distribuido, escalable,
tolerante a fallos, con un intensivo acceso a datos y alta concurrencia.
En 2006 Dough Cutting crea Hadoop en un sistema de procesar datos a nivel web.
En 2008 se grada como proyecto independiente de Apache Software Foundation.
Se basa en el paradigma MapReduce utilizado para paralelizar procesos en dos
fases. La fase de mapeo donde se realiza el 'escaneo' o recogida de los datos de
entrada produciendo una lista de pares (clave, valor). Estos pares son agrupados
por clave y pasados a la funcin reduce que se encarga de procesarlos y generar
un resultado agrupado de los mismos.
Hay varias formas de utilizar Hadoop. Dependiendo de nuestras necesidades
podemos optar a varios tipos de instalacin o modos de funcionamiento:

Un nico nodo en local (single node), utilizado por ejemplo para hacer
pruebas de concepto corriendo Hadoop en una misma mquina

Un cluster pseudo-distribuido para simular un cluster de varios nodos pero


corriendo en una misma mquina es decir en la misma Java VM.

Montar un cluster entre distintas mquinas (multi node) totalmente


distribuido que sera el modo que utilizaramos para montar un sistema Big
Data en produccin.

TIPO DE DATOS:
Muchas organizaciones se enfrentan a la pregunta sobre qu informacin es la
que se debe analizar?, sin embargo, el cuestionamiento debera estar enfocado
hacia qu problema es el que se est tratando de resolver?
Si bien sabemos que existe una amplia variedad de tipos de datos a analizar, una
buena clasificacin nos ayudara a entender mejor su representacin, aunque es
muy probable que estas categoras puedan extenderse con el avance tecnolgico.

1.- Web and Social Media: Incluye contenido web e informacin que es obtenida
de las redes sociales como Facebook, Twitter, LinkedIn, etc, blogs.
2.- Machine-to-Machine (M2M): M2M se refiere a las tecnologas que permiten
conectarse a otros dispositivos. M2M utiliza dispositivos como sensores o
medidores que capturan algn evento en particular (velocidad, temperatura,
presin, variables meteorolgicas, variables qumicas como la salinidad, etc.) los
cuales transmiten a travs de redes almbricas, inalmbricas o hbridas a otras
aplicaciones que traducen estos eventos en informacin significativa.
3.- Big Transaction Data: Incluye registros de facturacin, en telecomunicaciones
registros detallados de las llamadas (CDR), etc. Estos datos transaccionales estn
disponibles en formatos tanto semiestructurados como no estructurados.
4.- Biometrics: Informacin biomtrica en la que se incluye huellas digitales,
escaneo de la retina, reconocimiento facial, gentica, etc. En el rea de seguridad
e inteligencia, los datos biomtricos han sido informacin importante para las
agencias de investigacin.
5.- Human Generated: Las personas generamos diversas cantidades de datos
como la informacin que guarda un call center al establecer una llamada
telefnica, notas de voz, correos electrnicos, documentos electrnicos, estudios
mdicos, etc.

COMPONENTES DE LA PLATAFORMA DE UNA BIG DATA:

Las organizaciones han atacado esta problemtica desde diferentes ngulos.


Todas esas montaas de informacin han generado un costo potencial al no
descubrir el gran valor asociado. Desde luego, el ngulo correcto que actualmente
tiene el liderazgo en trminos de popularidad para analizar enormes cantidades de
informacin es la plataforma de cdigo abierto Hadoop.

Hadoop est inspirado en el proyecto de Google File System (GFS) y en el


paradigma de programacin MapReduce, el cual consiste en dividir en dos tareas
(mapper reducer) para manipular los datos distribuidos a nodos de un clster
logrando un alto paralelismo en el procesamiento Hadoop est compuesto de tres
piezas: Hadoop Distributed File System (HDFS), Hadoop MapReduce y Hadoop
Common.
Hadoop Distributed File System (HDFS)
Los datos en el clster de Hadoop son divididos en pequeas piezas
llamadas bloques y distribuidas a travs del clster; de esta manera, las
funciones map y reduce pueden ser ejecutadas en pequeos subconjuntos y esto
provee de la escalabilidad necesaria para el procesamiento de grandes
volmenes.
La siguiente figura ejemplifica como los bloques de datos son escritos hacia
HDFS. Observe que cada bloque es almacenado tres veces y al menos un bloque
se almacena en un diferente rack para lograr redundancia.

Hadoop MapReduce
MapReduce es el ncleo de Hadoop. El trmino MapReduce en realidad se refiere
a dos procesos separados que Hadoop ejecuta. El primer proceso map, el cual

toma un conjunto de datos y lo convierte en otro conjunto, donde los elementos


individuales son separados en tuplas (pares de llave/valor). El
proceso reduce obtiene la salida de map como datos de entrada y combina las
tuplas en un conjunto ms pequeo de las mismas. Una fase intermedia es la
denominada Shuffle la cual obtiene las tuplas del proceso map y determina que
nodo procesar estos datos dirigiendo la salida a una tarea reduce en especfico.
La siguiente figura ejemplifica un flujo de datos en un proceso sencillo de
MapReduce.

Hadoop Common
Hadoop Common Components son un conjunto de libreras que soportan varios
subproyectos de Hadoop.
Adems de estos tres componentes principales de Hadoop, existen otros
proyectos relacionados los cuales son definidos a continuacin:
Avro
Es un proyecto de Apache que provee servicios de serializacin. Cuando se
guardan datos en un archivo, el esquema que define ese archivo es guardado
dentro del mismo; de este modo es ms sencillo para cualquier aplicacin leerlo
posteriormente puesto que el esquema esta definido dentro del archivo.

Cassandra
Cassandra es una base de datos no relacional distribuida y basada en un modelo
de almacenamiento de <clave-valor>, desarrollada en Java. Permite grandes
volmenes de datos en forma distribuida. Twitter es una de las empresas que
utiliza Cassandra dentro de su plataforma.
Chukwa
Diseado para la coleccin y anlisis a gran escala de "logs". Incluye un toolkit
para desplegar los resultados del anlisis y monitoreo.
Flume
Tal como su nombre lo indica, su tarea principal es dirigir los datos de una fuente
hacia alguna otra localidad, en este caso hacia el ambiente de Hadoop. Existen
tres entidades principales: sources, decorators y sinks.Un source es bsicamente
cualquier fuente de datos, sink es el destino de una operacin en especfico y
undecorator es una operacin dentro del flujo de datos que transforma esa
informacin de alguna manera, como por ejemplo comprimir o descomprimir los
datos o alguna otra operacin en particular sobre los mismos.
HBase
Es una base de datos columnar (column-oriented database) que se ejecuta en
HDFS. HBase no soporta SQL, de hecho, HBase no es una base de datos
relacional. Cada tabla contiene filas y columnas como una base de datos
relacional. HBase permite que muchos atributos sean agrupados
llamndolos familias de columnas, de tal manera que los elementos de una familia
de columnas son almacenados en un solo conjunto. Eso es distinto a las bases de
datos relacionales orientadas a filas, donde todas las columnas de una fila dada
son almacenadas en conjunto. Facebook utiliza HBase en su plataforma desde
Noviembre del 2010.
Hive
Es una infraestructura de data warehouse que facilita administrar grandes
conjuntos de datos que se encuentran almacenados en un ambiente distribuido.
Hive tiene definido un lenguaje similar a SQL llamado Hive Query Language(HQL),
estas sentencias HQL son separadas por un servicio de Hive y son enviadas a
procesos MapReduce ejecutados en el cluster de Hadoop.

Jaql
Fue donado por IBM a la comunidad de software libre. Query Language for
Javascript Object Notation (JSON) es un lenguaje funcional y declarativo que
permite la explotacin de datos en formato JSON diseado para procesar grandes
volmenes de informacin. Para explotar el paralelismo, Jaql reescribe los queries
de alto nivel (cuando es necesario) en queries de "bajo nivel" para distribuirlos
como procesos MapReduce.
Internamente el motor de Jaql transforma el query en procesos map y reduce para
reducir el tiempo de desarrollo asociado en analizar los datos en Hadoop. Jaql
posee de una infraestructura flexible para administrar y analizar datos
semiestructurados como XML, archivos CSV, archivos planos, datos relacionales,
etc.
Lucene
Es un proyecto de Apache bastante popular para realizar bsquedas sobre textos.
Lucene provee de libreras para indexacin y bsqueda de texto. Ha sido
principalmente utilizado en la implementacin de motores de bsqueda (aunque
hay que considerar que no tiene funciones de "crawling" ni anlisis de documentos
HTML ya incorporadas). El concepto a nivel de arquitectura de Lucene es simple,
bsicamente los documentos (document) son dividos en campos de texto (fields) y
se genera un ndice sobre estos campos de texto. La indexacin es el componente
clave de Lucene, lo que le permite realizar bsquedas rpidamente
independientemente del formato del archivo, ya sean PDFs, documentos HTML,
etc.

Oozie
Como pudo haber notado, existen varios procesos que son ejecutados en distintos
momentos los cuales necesitan ser orquestados para satisfacer las necesidades
de tan complejo anlisis de informacin.
Oozie es un proyecto de cdigo abierto que simplifica los flujos de trabajo y la
coordinacin entre cada uno de los procesos. Permite que el usuario pueda definir
acciones y las dependencias entre dichas acciones.
Un flujo de trabajo en Oozie es definido mediante un grafo acclico
llamado Directed Acyclical Graph (DAG), y es acclico puesto que no permite ciclos
en el grafo; es decir, solo hay un punto de entrada y de salida y todas las tareas y
dependencias parten del punto inicial al punto final sin puntos de retorno. Un
ejemplo de un flujo de trabajo en Oozie se representa de la siguiente manera:

Pig
Inicialmente desarrollado por Yahoo para permitir a los usuarios de Hadoop
enfocarse ms en analizar todos los conjuntos de datos y dedicar menos tiempo
en construir los programas MapReduce. Tal como su nombre lo indica al igual que
cualquier cerdo que come cualquier cosa, el lenguaje PigLatin fue diseado para
manejar cualquier tipo de dato y Pig es el ambiente de ejecucin donde estos
programas son ejecutados, de manera muy similar a la relacin entre la mquina
virtual de Java (JVM) y una aplicacin Java.

ZooKeeper
ZooKeeper es otro proyecto de cdigo abierto de Apache que provee de una
infraestructura centralizada y de servicios que pueden ser utilizados por
aplicaciones para asegurarse de que los procesos a travs de un cluster sean
serializados o sincronizados.
Internamente en ZooKeeper una aplicacin puede crear un archivo que se persiste
en memoria en los servidores ZooKeeper llamado znode. Este
archivo znode puede ser actualizado por cualquier nodo en el cluster, y cualquier
nodo puede registrar que sea informado de los cambios ocurridos en ese znode;
es decir, un servidor puede ser configurado para "vigilar" un znode en particular.
De este modo, las aplicaciones pueden sincronizar sus procesos a travs de un
cluster distribuido actualizando su estatus en cada znode, el cual informar al
resto del cluster sobre el estatus correspondiente de algn nodo en especfico.
Como podr observar, ms all de Hadoop, una plataforma de Big Data consiste
de todo un ecosistema de proyectos que en conjunto permiten simplificar,
administrar, coordinar y analizar grandes volmenes de informacin.

CONCLUSIONES:
La naturaleza de la informacin hoy es diferente a la informacin en el pasado.
Debido a la abundacia de sensores, micrfonos, cmaras, escneres mdicos,
imgenes, etc. en nuestras vidas, los datos generados a partir de estos elementos
sern dentro de poco el segmento ms grande de toda la informacin disponible.
El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les
podran haber tomado aos en descubrir por si mismos sin el uso de estas
herramientas, debido a la velocidad del anlisis, es posible que el analista de
datos pueda cambiar sus ideas basndose en el resultado obtenido y retrabajar el
procedimiento una y otra vez hasta encontrar el verdadero valor al que se est
tratando de llegar.
Como se pudo notar en el presente artculo, implementar una solucin alrededor
de Big Data implica de la integracin de diversos componentes y proyectos que en
conjunto forman el ecosistema necesario para analizar grandes cantidades de

datos.
Sin una plataforma de Big Data se necesitara que desarrollar adicionalmente
cdigo que permita administrar cada uno de esos componentes como por ejemplo:
manejo de eventos, conectividad, alta disponibilidad, seguridad, optimizacin y
desempeo, depuracin, monitoreo, administracin de las aplicaciones, SQL y
scripts personalizados.
IBM cuenta con una plataforma de Big Data basada en dos productos principales:
IBM InfoSphere BigInsights e IBM InfoSphere Streams, adems de su
reciente adquisicin Vivisimo, los cuales estn diseados para resolver este tipo
de problemas. Estas herramientas estn construidas para ser ejecutadas en
sistemas distribuidos a gran escala diseados para tratar con grandes volmenes
de informacin, analizando tanto datos estructurados como no estructurados.
Dentro de la plataforma de IBM existen ms de 100 aplicaciones de ejemplo
recolectadas del trabajo que se ha realizado internamente en la empresa para
casos de uso e industrias especficas. Estos aplicativos estn implementados
dentro de la solucin de manera que las organizaciones puedan dedicar su tiempo
a analizar y no a implementar.

RECOMENDACIONES:
Para dar una resea valiosa e importante, debemos sealar que la importancia de
la Big Data tanto para la empresa como para los negocios a realizar, hay que
saber siempre cules son las mejores opciones, y en ste caso para lograr sacar
lo que necesitamos de la Big Data sera algo clsico llamado Hadoop para la
manipulacin de esas bases de datos masivas. Pero como sin un intrprete
adecuado, no se pueden obtener los ptimos resultados, debemos avocarnos a
gente experta y profesional para decirnos qu hacer con tanta informacin
fluyendo a nuestro alrededor.

REFERENCIAS:

1.

2.

3.
4.

5.
6.

Cisco, Internet ser cuatro veces ms grande en 2016, Artculo


Web http://www.cisco.com/web/ES/about/press/2012/2012-05-30internet-sera-cuatro-veces-mas-grande-en-2016--informe-vini-decisco.html
Soares Sunil, Not Your Type? Big Data Matchmaker On Five
Data Types You Need To Explore Today, Artculo
Webhttp://www.dataversity.net/not-your-type-big-data-matchmaker-onfive-data-types-you-need-to-explore-today/
Clegg Dai, Big Data: The Data Velocity Discussion, Artculo
Web http://thinking.netezza.com/blog/big-data-data-velocity-discussion
Kobielus James, Big Data Analytics Helps Researchers Drill
Deeper into Multiple Sclerosis, Artculo
Webhttp://thinking.netezza.com/blog/big-data-analytics-helpsresearchers-drill-deeper-multiple-sclerosis
Aprenda ms acerca de Apache Hadoop en http://hadoop.apache.org/

Zikopolous Paul, Deroos Dirk, Deutsch Tom, Lapis


George, Understanding Big Data: Analytics for Enterprise Class
Hadoop and Streaming Data, McGraw-Hill, 2012
7.
Foster Kevin, Nathan Senthil, Rajan Deepak, Ballard Chuck, IBM
InfoSphere Streams: Assembling Continuous Insight in the
Information Revolution, IBM RedBooks, 2011

You might also like