You are on page 1of 31

INTRODUCCIÓN A LA

BIG DATA

INTEGRANTES:

VILCAPUMA CHOQUE DYAN


CARRANZA CUEVA MOISES

www.consul
tec.es
Índice

1.Introducción
2.¿Qué no es Big Data?
3.¿Qué es Big Data?
4.Utilidades
5.Ejemplo real: Walmart
6.Características Técnicas
7.Markets de Datos
8.Hadoop
9.Microsoft HDInsight
Introducción
“Big Data” es desde hacer un par de años una de las grandes
tendencias dentro del mundo de la tecnología y del marketing, uno
de esos “buzzwords” que en un momento dado empiezan a
propagarse y aparecer por todo internet, las grandes empresas se
interesan por ello, se crea una industria alrededor y, de repente, todo
el mundo sabe lo que es Big Data. O no …

BIG DATA
¿Qué no es Big Data?
Antes de empezar, lo primero es desengañarnos.

• Big Data no es una base de datos enorme

• Big Data no es un data warehouse enorme

• Big Data no es una nueva forma de Business Intelligence

• Big Data no es llevar las base de datos a la nube


¿Qué es Big Data? - Situación actual
Información
generada
eMail GPS
por apps
s
móviles
Bases de
Datos Redes
Relacional Sociales
es Archivo
Información
s
generada
(XML,
por
Logs, …) RFID
máquinas

Big
ERP/CR APIs
Data
Y mucho
Bases de M
Datos más.
Sensore Y lo que
Analíticas s está por
(Data
Warehouse venir …
)
Base de
Datos Internet
NoSQL de las
Cosas
¿Qué es Big Data? - Definiciones
Definiciones encontradas en internet

• Información que tiene un orden de magnitud más grande de lo que


estamos acostumbrados.

• Información que es muy grande y no se ajusta a las estructuras de las


bases de datos actuales.

• Es un conjunto de datos cuyo tamaño está más allá de la capacidad de la


mayoría de los software utilizados para capturar, gestionar y procesar la
información dentro de un lapso tolerable de tiempo.
¿Qué es Big Data? - Las 4 Vs
Volume: grandes volúmenes de información

• Se está pasando de hablar en Gigabytes o Terabytes a tamaños de datos de


Petabytes, Exabytes o Zettabytes. Volúmenes que se nos escapan.
¿Qué es Big Data? - Las 4 Vs
Variety: información de tipos muy diversos

• Ya no solo tenemos información estructurada en Bases de Datos o Archivos.


Ahora empezamos a tener información con tipos diferentes y totalmente
desestructurada.
¿Qué es Big Data? - Las 4 Vs
Velocity: velocidad con la que se genera la información

• La velocidad a la que se genera esta información hace imposible gestionarla


con sistemas de base de datos convencionales. Las empresas y las personas
ya no quieren estar al día, quieren “estar al segundo”.
¿Qué es Big Data? - Las 4 Vs
Veracity: se refiere a la variabilidad de su calidad y de su
disponibilidad.

• La Variedad afecta a la Veracidad: la Veracidad es la variable menos


uniforme a lo largo de los distintos tipos de dato que manejamos.

• En un entorno de analítica de negocio tradicional, los orígenes de datos son


mucho más reducidos en número y tipo (menor Variedad) y la organización
suele tener más control sobre ellos y mucho más conocimiento sobre su
volumen y calidad (mayor Veracidad).
¿Qué es Big Data? – Retos actuales
• Dar sentido al gran volumen de datos

• Necesitamos las herramientas adecuadas para dar sentido de la abrumadora


cantidad de datos generados por la disminución de los costos de hardware y de
las fuentes de datos “complejas”.

• La comprensión de una variedad cada vez mayor de datos

• Debemos poder analizar datos tanto relacionales como no relacionales. Más del
85% de los datos capturados son desestructurados.

• Habilitación de análisis en tiempo real de los datos

• Los nuevos grandes generadores de datos (Twitter, Facebook, …) están produciendo


volúmenes de datos sin precedentes y en tiempo real, lo que no se puede analizar
eficazmente mediante procesos por lotes normales.
¿Qué es Big Data? - Entendimiento: de los datos a la
sabiduría
Experienci
a
Sabidurí Context
a o

Conocimient
o

Informació

n Datos
Utilidades
Toma de decisiones

El valor del Big Data no es la información, sino la nueva forma de toma de


decisiones basada en evidencias y datos empíricos.

Tomar decisiones en base a datos empíricos y tendencias

Tomar decisiones en base a corazonadas, instinto o


experiencias pasadas
Utilidades
Transparencia

Compartir y hacer accesible grandes volúmenes de datos a las partes interesadas


y de manera oportuna puede crear un enorme valor y aumentar la eficiencia.
Utilidades
Experimentación

Una vez recopilados los datos que nos


interesan, la experimentación y la
exploración de los mismos puede
mostrarnos información que a primera vista
nunca hubiésemos encontrado o que nunca
se nos hubiese ocurrido buscar.
Utilidades
Innovación

Permite crear nuevos productos y servicios, mejorar los existentes e, incluso, crear
nuevos modelos de negocio.
Ejemplo real: Walmart
• Walmart es una multinacional
de grandes almacenes

• Es la segunda mayor empresa


del mundo por ingresos
Ejemplo real: Walmart
• Algunos datos:

• 200 millones de clientes a la semana

• 10700 tiendas

• 27 países

• 2 millones de trabajadores

• 1,5 millones de transacciones por hora

• Varios Terabytes de información generada en tiempo real

• Base de datos de 3 Petabytes


Ejemplo real: Walmart
Guardando todas las compras de todos los clientes se dieron cuenta que
en época de huracanes los Walmart de las zonas afectadas vendían más
cajas de Pop-Tarts que en otras épocas.

Se indicó a los gerentes de las tiendas que en esas épocas pusiesen los
Pop-Tarts en la entrada de las tiendas.

Resultado: Aumento extraordinario de las ventas

¿A quién se le hubiese ocurrido cruzar los


datos de ventas con los datos meteorológicos
o con los calendarios de huracanes?
Ejemplo real: Walmart
Hanna twitea:

“I love Salt!”.

En unos segundos el Tweet llega a los sistemas de Walmart, se analiza y


unos minutos más tarde le llega a una amiga suya el siguiente email:

“Buenos días!

Nos pediste que te avisásemos cuando fuese el


cumpleaños de Hanna. Pues ya está aquí y acaba de
tweetear algo bueno sobre la película “Salt” de Angelina
Jolie.

¿Quieres regalarle algo relacionado con ello?


Tenemos algunas sugerencias que hacerte …”
Ejemplo real: Walmart

•Social Genome

•Base de conocimiento que captura entidades y


relaciones del mundo social.
•Obtiene entidades de su
base de datos, de otros
datos tanto públicos
como privados y de redes
sociales.
Ejemplo real: Walmart
Social Genome

Se identifican las entidades “interesantes” y las relacionan entre sí,


consiguiendo toda la información de la que son capaces.

Es un sistema vivo, en constante evolución.

• Una persona interesada en un tema


• Una persona que asiste a un evento
• Un evento sobre un tema
• Una asociación entre empresa y producto
Ejemplo real: Walmart
Resumiendo
Características Técnicas
Arquitectura

• Alta escalabilidad

• Procesamiento paralelo

• Baja latencia

• Datos no estructurados y estructurados

• NoSQL

• By-pass de datos
Características Técnicas
Key-Value Pair

• La forma más sencilla de almacenamiento de datos en un entorno de


Big Data y NoSQL

• Los datos no están controlados por el sistema, por lo tanto los


desarrolladores deberán pensar muy bien donde y como almacenan
los datos
Markets de Datos
Además de las fuentes de datos que tengamos en nuestra
organización: bases de datos, emails, logs, documentos, etc …
Podemos acceder a grandes volúmenes de datos (Data Sets) en los
markets.

Hay gratuitos y de pago.


Hadoop
Es una plataforma diseñada para almacenar y analizar grandes
volúmenes de datos de diferentes tipos. Basada en Google Map/
Reduce y Google Filesystem.

• Map/Reduce:

• Map: trabajos desarrollados por nosotros. Se


distribuyen las tareas en diferentes nodos y se
ejecutan en paralelo. Esto genera una información
intermedia.

• Reduce: fusiona la información intermedia y se


la ofrece al usuario.

• HDFS (Hadoop Distributed File System):

• Sistema de archivos distribuidos, con replicación


automática y optimizado para lectura. Cada fichero
se partición y se distribuye en todos los servidores.
Hadoop
Otros proyectos alrededor de Hadoop

• Hive: Data Warehouse sobre Hadoop con lenguaje HiveQL (“SQL”).

• Pig: Lenguaje de script para consulta y análisis de la información.


Desarrollado por Yahoo!.

• Sqoop: Framework para la integración de bases de datos


relacionales.

• Flume: Servicio para recolectar, agregar y mover grandes volúmenes de


datos de eventos/logs.

• …
Microsof HDInsight
• Servicio basado en Hadoop.

• Dos versiones:
• Windows Azure HDInsight (on-
demand)
• HDInsight Server (on-premise)
Microsof HDInsight
• Acceso a todo tipo de usuarios, incluidos desarrolladores y
profesionales IT. Fácil instalación, administración y configuración.

• Integración con herramientas conocidas como Excel, PowerPivot,


PowerView, SQL Server Analysis Services o Reporting Services.

• .NET SDK para Hadoop (a través e NuGet):


• Map/Reduce
• LINQ to Hive
• WebHDFS Client
Gracias!

You might also like