Big Data BD2

UNIVERSIDAD CATLICA DE
SANTIAGO DEL ESTERO

D.A.S.S.
INGENIERA EN INFORMTICA
BASE DE DATOS II
Big Data o Datos Masivos

ALUMNO:
Gomez, Juan Miguel ngel

Big Data o Datos Masivos
Qu es Big Data y porqu se ha vuelto tan importante?
Sistemas informticos basados en la acumulacin a gran escala de datos y de los procedimientos

usados para identificar patrones recurrentes dentro de esos datos
La tendencia en el avance de la tecnologa que ha abierto las puertas hacia un nuevo enfoque de
entendimiento y toma de decisiones, la cual es utilizada para describir enormes cantidades de
datos (estructurados, no estructurados y semi estructurados)
Datos estructurados (Structured Data): Datos que tienen bien definidos su longitud y su
formato, como las fechas, los nmeros o las cadenas de caracteres. Se almacenan en
tablas. Un ejemplo son las bases de datos relacionales y las hojas de clculo.
Datos no estructurados (Unstructured Data): Datos en el formato tal y como fueron
recolectados, carecen de un formato especfico. No se pueden almacenar dentro de una
tabla ya que no se puede desgranar su informacin a tipos bsicos de datos. Algunos
ejemplos son los PDF, documentos multimedia, e-mails o documentos de texto.
Datos semiestructurados (Semistructured Data): Datos que no se limitan a campos
determinados, pero que contiene marcadores para separar los diferentes elementos. Es
una informacin poco regular como para ser gestionada de una forma estndar. Estos
datos poseen sus propios metadatos semiestructurados que describen los objetos y las
relaciones entre ellos, y pueden acabar siendo aceptados por convencin. Un ejemplo es
el HTML, el XML o el JSON (JavaScript Object Notation).
El concepto de Big Data aplica para toda aquella informacin que no puede ser procesada o
analizada utilizando procesos o herramientas tradicionales
Las dificultades ms habituales vinculadas a la gestin de estas cantidades de datos se centran

en la captura, el almacenamiento, bsqueda, comparticin, anlisis y visualizacin
La tendencia a manipular grandes cantidades de datos se debe a la necesidad en muchos casos

de incluir los datos relacionados del anlisis en un gran conjunto de datos, como los anlisis de
negocio, publicitarios, los datos de enfermedades infecciosas, el espionaje y seguimiento a la
poblacin o la lucha contra el crimen organizado
JUAN GOMEZ 1
De dnde proviene toda esa informacin?
Esta contribucin a la acumulacin masiva de datos la podemos encontrar en diversas industrias,

las compaas mantienen grandes cantidades de datos transaccionales, reuniendo informacin
acerca de sus clientes, proveedores, operaciones, etc., de la misma manera sucede con el sector
pblico. En muchos pases se administran enormes bases de datos que contienen datos de censo
de poblacin, registros mdicos, impuestos, etc., y si a todo esto le aadimos transacciones
financieras realizadas en lnea o por dispositivos mviles, anlisis de redes sociales (en Twitter
son cerca de 12 Terabytes de tweets creados diariamente y Facebook almacena alrededor de 100
Petabytes de fotos y videos), ubicacin geogrfica mediante coordenadas GPS, en otras palabras,
todas aquellas actividades que la mayora de nosotros realizamos varias veces al da con nuestros
"smartphones", estamos hablando de que se generan alrededor de 2.5 quintillones de bytes
diariamente en el mundo.
Estudios realizados por Cisco, entre el 2011 y el 2016 la cantidad de trfico de datos mviles
crecer a una tasa anual de 78%, as como el nmero de dispositivos mviles conectados a
Internet exceder el nmero de habitantes en el planeta
Generados por las personas: Enviar correos electrnicos por e-mail o mensajes por WhatsApp,
postear en Facebook, tuitear contenidos o responder a una encuesta por la calle son algunas
acciones cuotidianas que crean nuevos datos y metadatos que pueden ser analizados. Se estima
que cada minuto al da se envan ms de 200 millones de e-mails, se comparten ms de 700.000
piezas de contenido en Facebook, se realizan dos millones de bsquedas en Google o se editan
48 horas de vdeo en YouTube.19 Por otro lado, las trazas de utilizacin en un sistema ERP, incluir
registros en una base de datos o introducir informacin en una hoja de clculo son otras formas de
generar estos datos.
Transacciones de datos: La facturacin, las llamadas o las transaccin entre cuentas

generan informacin que tratada pueden ser datos relevantes. Un ejemplo ms claro lo
encontraremos en las transacciones bancarias: lo que el usuario conoce como un ingreso
de X euros, la computacin lo interpretar como una accin llevada a cabo en una fecha y
momento determinado, en un lugar concreto, entre unos usuarios registrados, y ms
metadatos.
E-marketing y web: Generamos una gran cantidad de datos cuando navegamos por
internet. Con la web 2.0 se ha roto el paradigma webmaster-contenido-lector y los mismos
usuarios se convierten en creadores de contenido gracias a su interaccin con el sitio.
Existen muchas herramientas de tracking utilizadas en su mayora con fines de marketing y
JUAN GOMEZ 2
anlisis de negocio. Los movimientos de ratn quedan grabados en mapas de calor y
queda registro de cunto pasamos en cada pgina y cundo las visitamos.
Machine to Machine (M2M): Son las tecnologas que comparten datos con dispositivos:
medidores, sensores de temperatura, de luz, de altura, de presin, de sonido que
transforman las magnitudes fsicas o qumicas y las convierten en datos. Existen desde
hace dcadas, pero la llegada de las comunicaciones inalmbricas (Wi-Fi, Bluetooth,
RFID) ha revolucionado el mundo de los sensores. Algunos ejemplos son los GPS en la
automocin o los sensores de signos vitales en la medicina.
Biomtrica: Son el conjunto de datos que provienen de la seguridad, defensa y servicios
de inteligencia. Son cantidades de datos generados por lectores biomtricos como
escneres de retina, escneres de huellas digitales, o lectores de cadenas de ADN. El
propsito de estos datos es proporcionar mecanismos de seguridad y suelen estar
custodiadas por los ministerios de defensa y departamentos de inteligencia. Un ejemplo de
aplicacin es el cruce de ADN entre una muestra de un crimen y una muestra en nuestra
base de datos.
Transformacin
Hay que hacer que los datos se recojan en un mismo lugar y darles un formato. Las plataformas
ETL (Extract, Transform and Load) se encargan de extraer los datos de las diferentes fuentes y
sistemas, para despus hacer transformaciones (conversiones de datos, limpieza de datos sucios,
cambios de formato) y finalmente cargar los datos en la base de datos o Data Warehouse
especificada
Un ejemplo de plataforma ETL es el Pentaho Data Integration, ms concretamente su aplicacin

Spoon.
Almacenamiento NoSQL (Not Only SQL)
Son sistemas de almacenamiento que no cumplen con el esquema entidad-relaci, proveen un

sistema de almacenamiento mucho ms flexible y concurrente y permiten manipular grandes
cantidades de informacin de manera mucho ms rpida que las bases de datos relacionales.
Distinguimos cuatro grandes grupos de bases de datos NoSQL:
Almacenamiento Clave-Valor (Key-Value): Los datos se almacenan de forma similar a

los maps o diccionarios de datos, donde se accede al dato a partir de una clave nica, los
JUAN GOMEZ 3
valores (datos) son aislados e independientes entre ellos, y no son interpretados por el
sistema. Pueden ser variables simples como enteros o caracteres, u objetos. Este sistema
de almacenamiento carece de una estructura de datos clara y establecida, por lo que no
requiere un formateo de los datos muy estricto, ejemplo Cassandra
Almacenamiento Documental: Las bases de datos documentales guardan un gran
parecido con las bases de datos Clave-Valor, diferencindose en el dato que guardan. Si
en la anterior no requera una estructura de datos concreta, en este caso guardamos datos
semiestructurados. Estos datos pasan a llamarse documentos, y pueden estar
formateados en XML, JSON, Binary JSON o el que acepte la misma base de datos.
Todos los documentos tienen una clave nica con la que puede ser accedido e identificado
explcitamente. Estos documentos no son opacos al sistema, por lo que pueden ser
interpretados y lanzar query sobre ellos.
Un ejemplo que aclare cmo se usa lo encontramos en un blog: se almacena el autor, la
fecha, el ttulo, el resumen y el contenido del post.
CouchDB o MongoDB25 son quiz las ms conocidas. Hay que hacer mencin especial a
MapReduce, una tecnologa de Google inicialmente diseada para su algoritmo PageRank,
que permite seleccionar un subconjunto de datos, agruparlos o reducirlos y cargarlos en
otra coleccin, y a Hadoop que es una tecnologa de Apache diseada para almacenar y
procesar grandes cantidades de datos.
Almacenamiento en Grafo: Las bases de datos en grafo rompen con la idea de tablas y
se basan en la teora de grafos, donde se establece que la informacin son los nodos y las
relaciones entre la informacin son las aristas, algo similar en el modelo relacional. Su
mayor uso se contempla en casos de relacionar grandes cantidades de datos que pueden
ser muy variables.
Por ejemplo, los nodos pueden contener objetos, variables y atributos diferentes en unos y
los otros. Las operaciones de join se sustituyen por recorridos a travs del grafo, y se
guarda una lista de adyacencias entre los nodos. Encontramos un ejemplo en las redes
sociales: en Facebook cada nodo se considera un usuario, que puede tener aristasde
amistad con otros usuarios, o aristas de publicacin con nodos de contenidos. Soluciones
como Neo4J y GraphDB son las ms conocidas dentro de las bases de datos en grafo.
Almacenamiento Orientado a Columnas: El almacenamiento Column-Oriented es
parecido al Documental. Su modelo de datos es definido como un mapa de datos
multidimensional poco denso, distribuido y persistente. Se orienta a almacenar datos con
tendencia a escalar horizontalmente, por lo que permite guardar diferentes atributos y
objetos bajo una misma Clave. A diferencia del Documental y el Key-Value, en este caso
JUAN GOMEZ 4
podremos almacenar varios atributos y objetos, pero no sern interpretables directamente
por el sistema. Permite agrupar columnas en familias y guardar la informacin
cronolgicamente, mejorando el rendimiento. Esta tecnologa se a acostumbra a usar en
casos con 100 o ms atributos por clave. Su precursor es BigTable de Google, pero han
aparecido nuevas soluciones como HBase o HyperTable.
Anlisis de datos
Asociacin: Permite encontrar relaciones entre diferentes variables. Bajo la premisa de

causalidad, se pretende encontrar una prediccin en el comportamiento de otras variables. Estas
relaciones pueden ser los sistemas de ventas cruzadas en los e-commerce.
Minera de datos (Data Mining): Tiene como objetivo encontrar comportamientos predictivos.
Engloba el conjunto de tcnicas que combina mtodos estadsticos y de machine learning con
almacenamiento en bases de datos. Est estrechamente relacionada con los modelos utilizados
para descubrir patrones en grandes cantidades de datos.
Agrupacin (Clustering): El anlisis de clsteres es un tipo de minera de datos que divide

grandes grupos de individuos en grupos ms pequeos de los cuales no conocamos su parecido
antes del anlisis. El propsito es encontrar similitudes entre estos grupos, y el descubrimiento de
nuevos conociendo cules son las cualidades que lo definen. Es una metodologa apropiada para
encontrar relaciones entre resultados y hacer una evaluacin preliminar de la estructura de los
datos analizados. Existen diferentes tcnicas y algoritmos de clustering
Anlisis de texto (Text Analytics): Gran parte de los datos generados por las personas son
textos, como e-mails, bsquedas web o contenidos. Esta metodologa permite extraer informacin
de estos datos y as modelar temas y asuntos o predecir palabras.
Se utiliza Mondrian es una plataforma que permite visualizar la informacin a travs de los
anlisis llevados a cabo sobre los datos que disponemos.
Visualizacin de datos
Nuestra mente agradecer mucho ms la visualizacin amigable de unos resultados estadsticos

en grficos o mapas que no en tablas con nmeros y conclusiones
Utilidad
Empresarial:
Redes Sociales: Cada vez ms tendemos a subir a las redes sociales toda nuestra actividad y la
JUAN GOMEZ 5
de nuestros conocidos. Las empresas utilizan esta informacin para cruzar los datos de los
candidatos a un trabajo. Taleo Social Sourcing (Oracle) est integrada con las APIs de Facebook,
Twitter y LinkedIn, los departamentos de recursos humanos pueden ver, entrando la identidad del
candidato, su perfil social y profesional en cuestin de segundos, crear una lista de posibles
candidatos segn el perfil profesional necesario,
Consumo: la minera de datos masiva basando los patrones de compra de un usuario cruzados
con los datos de compra de otro, creando as anuncios personalizados y boletines electrnicos
que incluyen justo aquello que el usuario quiere en ese instante
Deportes
Anlisis de los partidos constituye una parte fundamental en el entrenamiento de los

profesionales, y la toma de decisiones de los entrenadores. Amisco es un sistema aplicado por
los ms importantes equipos de las ligas espaola, francesa, alemana e inglesa, registran los
movimientos de los jugadores a razn de 25 registros por segundo, y luego envan los datos a una
central donde hacen un anlisis masivo de los datos. Resultado incluye una reproduccin del
partido en dos dimensiones, los datos tcnicos y estadsticas, y un resumen de los datos fsicos
de cada jugador
Investigacin
Flu Trends usa los datos de las bsquedas de los usuarios que contienen Influenza-Like Illness
Symptoms (Sntomas parecidos a la enfermedad de la gripe) y los agrega segn ubicacin y
fecha, y es capaz de predecir la actividad de la gripe hasta con dos semanas de antelacin ms
que los sistemas tradicionales. Ms concretamente en Nueva Zelanda44 cruzaron los datos de
Google Flu Trends con datos existentes de los sistemas de salud nacionales, y comprobaron que
estaban alineados. Los grficos mostraron una correlacin con las bsquedas de ILI Symptoms y
la extensin de la pandemia en el pas, as dando tiempo a un pas para abastecerse de
medicinas antes que ocurra la pandemia en su regin
Defensa y seguridad: Para incrementar la seguridad frente a los ataques de las propias
organizaciones, ya sean empresas en el entorno econmico o los propios ministerios de defensa
en el entorno de ciberataques, se contempla la utilidad de la tecnologa Big Data en escenarios
como la vigilancia y seguridad de fronteras, lucha contra el terrorismo y crimen organizado, contra
el fraude, planes de seguridad ciudadana o planeamiento tctico de misiones e inteligencia militar
Componentes de una plataforma Big Data
JUAN GOMEZ 6
El ngulo correcto que actualmente tiene el liderazgo en trminos de popularidad para analizar
enormes cantidades de informacin es la plataforma de cdigo abierto Hadoop.
Hadoop est inspirado en el proyecto de Google File System(GFS) y en el paradigma de

programacin MapReduce, el cual consiste en dividir en dos tareas (mapper reducer) para
manipular los datos distribuidos a nodos de un clster logrando un alto paralelismo en el
procesamiento
La siguiente figura ejemplifica como los bloques de datos son escritos hacia HDFS. Observe que
cada bloque es almacenado tres veces y al menos un bloque se almacena en un diferente rack
para lograr redundancia.
Hadoop MapReduce
Es el ncleo de Hadoop. El trmino MapReduce en realidad se refiere a dos procesos separados

que Hadoop ejecuta. El primer proceso map, el cual toma un conjunto de datos y lo convierte en
otro conjunto, donde los elementos individuales son separados en tuplas (pares de llave/valor). El
proceso reduce obtiene la salida de map como datos de entrada y combina las tuplas en un
conjunto ms pequeo de las mismas. Una fase intermedia es la denominada Shuffle la cual
obtiene las tuplas del proceso map y determina que nodo procesar estos datos dirigiendo la
salida a una tarea reduce en especfico.
JUAN GOMEZ 7
Hadoop Common
Son un conjunto de libreras que soportan varios subproyectos de Hadoop.
JUAN GOMEZ 8

Big Data BD2

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Big Data BD2

Uploaded by

Copyright:

Available Formats

UNIVERSIDAD CATLICA DE

SANTIAGO DEL ESTERO

Big Data o Datos Masivos

Gomez, Juan Miguel ngel

Qu es Big Data y porqu se ha vuelto tan importante?

Sistemas informticos basados en la acumulacin a gran escala de datos y de los procedimientos

Las dificultades ms habituales vinculadas a la gestin de estas cantidades de datos se centran

La tendencia a manipular grandes cantidades de datos se debe a la necesidad en muchos casos

Esta contribucin a la acumulacin masiva de datos la podemos encontrar en diversas industrias,

Transacciones de datos: La facturacin, las llamadas o las transaccin entre cuentas

Un ejemplo de plataforma ETL es el Pentaho Data Integration, ms concretamente su aplicacin

Almacenamiento NoSQL (Not Only SQL)

Son sistemas de almacenamiento que no cumplen con el esquema entidad-relaci, proveen un

Distinguimos cuatro grandes grupos de bases de datos NoSQL:

Almacenamiento Clave-Valor (Key-Value): Los datos se almacenan de forma similar a

Asociacin: Permite encontrar relaciones entre diferentes variables. Bajo la premisa de

Agrupacin (Clustering): El anlisis de clsteres es un tipo de minera de datos que divide

Nuestra mente agradecer mucho ms la visualizacin amigable de unos resultados estadsticos

Anlisis de los partidos constituye una parte fundamental en el entrenamiento de los

Componentes de una plataforma Big Data

Hadoop est inspirado en el proyecto de Google File System(GFS) y en el paradigma de

Es el ncleo de Hadoop. El trmino MapReduce en realidad se refiere a dos procesos separados

Son un conjunto de libreras que soportan varios subproyectos de Hadoop.

You might also like