Professional Documents
Culture Documents
la educacin
[1.1] Cmo estudiar este tema?
[1.2] Introduccin
TEMA 1 Esquema
Big Data Big Data-
Educacin
2
Bases de datos
Volumen Captura Operacionales Componentes
operacionales
Caractersticas
del Big Data en
Herramientas de Proyectos educacin
Variedad Almacenamiento Analticas
organizacin relacionados
Herramientas
Compartir
analticas
Herramientas de
Visualizacin
visualizacin
Del Dato (Big Data) a la Informacin (Internet)
Ideas clave
Para estudiar este tema lee y estudia las ideas clave desarrolladas en estos apuntes.
1.2. Introduccin
En la actualidad nos vemos inmersos en una gran cantidad de datos que proceden de
muy diversos lugares: correos electrnicos, noticias de televisin y de prensa,
calificaciones de exmenes, etc., y ninguno de nosotros estamos exentos de tener que
manejarlos, ni siquiera los ms pequeos.
Dichas fuentes pueden ser ms o menos fiables y hay que saber cmo discriminarlas,
tratarlas y organizarlas. Para ello es necesario que se utilicen herramientas y
conocimientos para que los datos puedan ser discriminados y procesados correctamente.
Podemos analizarlo desde el punto de vista humano, y si hay casos en los que para los
profesores no les es sencillo su manejo, tampoco lo es para aquellos estudiantes que o no
se les ha dado a conocer los instrumentos o no han adquirido las habilidades necesarias
para poder manejarlas. Si se traslada este problema a grandes organizaciones, en las que
la informacin es un factor decisivo para el xito o fracaso de sus proyectos, puede llegar
a ser el factor clave que haga que los proyectos sean o no realizables. Y es en estas
organizaciones donde surge el concepto de grandes volmenes de datos, tambin
conocido como Big Data.
En este tema vamos a tratar y exponer cules son los conceptos bsicos del tratamiento
de informacin, los datos masivos y dnde podemos encontrar esos datos en la
actualidad.
Por otro lado, tenemos el concepto big, que hace referencia a una gran cantidad. Pero,
como veremos en los prximos puntos, no solo va a hacer referencia a la cantidad de
datos sino que ha ido incorporando ms trminos a lo largo del tiempo.
El concepto de Big Data fue introducido por primera vez por Roger Magoulas de OReilly
en 2005, y lo hizo para definir aquella gran cantidad de datos que no poda
gestionarse por medio de tcnicas y procesos tradicionales debido a su
complejidad y tamao. A partir de esa definicin, el concepto de Big Data se estudi
desde distintos puntos de vista, ya que permiti indagar en las implicaciones que existan
desde los distintos campos involucrados. As se observ que Big Data constaba de tres
facetas diferentes, denominadas las tres V de Big Data:
Volumen
Variedad Velocidad
Volumen: se refiere a que Big Data implica el manejo de una gran cantidad de datos
que servir para generar informacin, que a su vez, se utilizar para generar
conocimiento. Los datos informticos se miden en bit, que es la unidad mnima de
informacin. Un bit almacena un cero o un uno. La siguiente unidad de medida es el
byte que corresponden a 8 bits. Es la unidad que en un primer momento se utiliz
para el almacenamiento de caracteres, un carcter para poder ser almacenado en una
memoria de ordenador se tuvo que traducir a ceros y unos con lo que se utilizaron 8
bits. Por ejemplo, para representar el carcter A en binario utilizara un byte,
representado en binario por 0100 0001 y, su correspondiente representacin en
decimal, 65. De estas dos unidades surgen las dems unidades que corresponden con:
Una vez vistas las unidades que pueden utilizarse para medir la informacin se puede
describir con precisin las expectativas de utilizacin de datos en la red. El volumen de
informacin que est previsto que exista en la red es de exabytes al mes, ms exactamente
24,3 exabytes, como indica CISCO VIN Mobile en la previsin del ao 2015:
Cisco Visual Networking Index: Global Mobile Data Traffic Forecast Update 20142019
White Paper (3 de Febrero de 2015). Fuente:
http://www.cisco.com/c/en/us/solutions/collateral/service-provider/visual-networking-
index-vni/white_paper_c11-520862.html
Variedad: los datos que se incluyen en Big Data son muy diversos y heterogneos,
pueden incluir tanto datos denominados estructurados, como no estructurados.
Los datos estructurados son aquellos que estn encorsetados en una estructura
definida, como pueden ser los utilizados en las bases de datos (nmero decimal,
carcter, bit, etc.); otro caso de datos estructurados, son los definidos a travs de una
estructura concreta, como son ficheros en los que los datos estn separados por comas
(CSV) pero siempre referidos a los mismos trminos. Por ejemplo, si se tuviese un
CSV con los datos de los empleados de una empresa, cada lnea del archivo tendra
cada uno de los datos de cada empleado en un orden. Este orden sera el que
permitira identificar cada uno de los datos de cada empleado, ya que siempre
aparecera, por ejemplo, primero el nombre, luego la direccin, y siempre en el mismo
orden.
Los datos no estructurados son aquellos que no tienen una estructura definida,
como pueden ser imgenes, vdeos o ficheros de sonido.
Los datos que pueden aparecer en un almacenamiento masivo son variables y podran
ser desde imgenes, registros de actividad de usuarios, hasta informes estadsticos,
pasando por vdeos, textos o cualquier otro tipo de formato.
A estas tres caractersticas bsicas se han aadido a lo largo del tiempo y sucesivamente
otras facetas o aspectos, como se observa en la siguiente figura:
Volumen
Valor Velocidad
Veracidad Variedad
Veracidad: est relacionada con el grado de confianza que se tiene en los datos
almacenados para poder llevar a cabo una decisin. Si los datos de entrada son
errneos se hace complicado que los resultados obtenidos respecto a los mismos sean
veraces.
Como conclusin, podramos decir que una fuente de datos ser Big Data no tanto por
la cantidad de informacin que vaya a contener, es decir, si tiene ms o menos teras de
datos, sino que se observarn otros aspectos como la variedad de datos que almacenar,
el tiempo con el que se contar para su tratamiento, por lo que ser necesario que sean
Esta caracterstica hace que las definiciones de Big Data sean diferentes si se aplican a
diversos sectores. As, por ejemplo, en el mundo econmico, un Big Data ser cualquier
almacenamiento que pueda dar un valor significativo a los datos que hagan que la
productividad y la competitividad de la compaa permitan crear una venta competitiva
ante sus clientes. Por el contrario, en el sector educativo, un Big Data ser un
almacenamiento de datos que permitan enfocar de manera individual el aprendizaje
autnomo de los estudiantes.
Big Data no trata solo el trmino de dato, sino que tambin est relacionada con las
alternativas existentes en las tcnicas que pueden mejorar el manejo de las tres/cinco V
para que incrementen su valor. Por lo que estas V implican que exista un tratamiento
de los datos enfocndose en distintos aspectos:
El modo en el que se capturan los datos junto con la seleccin de los datos que se
capturan.
El modo de almacenamiento de los datos que han sido capturados.
Una vez almacenados debern existir herramientas que permitan una bsqueda
adecuada de los datos.
En el caso de que sea necesario, esos datos han de ser compartidos entre distintos
entornos.
El ltimo aspecto a tener en cuenta cuando se tiene esa gran cantidad de datos es el
modo en el que van a ser visualizados.
Es decir, cada vez que se hace necesaria la extraccin de resultados en base a los datos
bsicos, se hace necesaria una transformacin que permita obtener conclusiones. El
proceso bsico de esa transformacin es el siguiente:
Partiendo de los datos sin tratar, lo que se hace es un preprocesado, para llevar a cabo
una concrecin de los mismos para que luego se pueda realizar un anlisis de correlacin
que permita una extraccin exhaustiva de informacin, y este ltimo proporcionar una
serie de resultados.
Datos sin
Captura
procesar
Organizacin
Integracin
Resultados
Anlisis
del anlisis
Retos en el anlisis
Para que el proceso llegue a buen fin es necesario abordar una serie de retos. En cuanto
a la captura, se hace necesario un control dependiendo del tipo de datos ya que las
transformaciones que se tienen que aplicar en cada caso no son las mismas. Por ejemplo,
la informacin que se debe tratar en una imagen y en un PDF es distinta. En un PDF se
puede tener que realizar un anlisis del tamao segn el nmero de pginas que
contiene, que en una imagen nunca se podra realizar dado que no contiene nmero de
pginas, pero por el contrario s que existe un tamao que ser su dimensin, alto y
ancho.
En el sistema de integracin de los datos tienen que tener las conexiones suficientes
como para que se puedan enlazar y se puede hacer muy complejo si adems los datos que
se quieren enlazar son de formatos muy heterogneos. Tambin hay que tener en cuenta
que cuando se realiza la correlacin de los datos puede ocurrir que el tiempo para realizar
la sincronizacin puede ser crtico en el procesamiento.
En el proceso de anlisis, tambin denominado data mining, hay que tener en cuenta
que para la extraccin de los resultados de informacin es necesario el uso modelos o
patrones que hagan la extraccin de informacin de esos datos, ya sea por su propia
estructura o por sus conexiones.
Las tecnologas de Big Data abarcan dos grandes tipos de campos: el campo operacional
y el campo analtico, en ciertos mbitos tambin denominados: tecnologas
operacionales y tecnologas de la informacin.
Tcnicas Tcnicas
operacionales analticas
Las exigencias que demandan cada una de estas herramientas son contrapuestas. En el
caso de las herramientas operacionales es necesario que tengan un gran rendimiento,
que permitan peticiones concurrentemente y que sean escalables, es decir, que puedan
adaptarse a la cantidad de informacin demandada aunque sean varias las peticiones
realizadas. En cambio, en las herramientas analticas lo que se demanda es que sean
capaces de gestionar consultas complejas con un rendimiento muy alto en su salida,
dando sus resultados en tiempos mnimos.
Para dar soporte al procesamiento de Big Data es necesario crear una infraestructura
de componentes que permita su tratamiento. El esquema bsico de esta
infraestructura est expuesto a continuacin:
Toda buena infraestructura de Big Data comienza con lo que se denominan las bases
de datos operacionales. Estas son aquellas que van a contener toda la coleccin de
datos que van a ser tratados posteriormente.
Dentro de las bases de datos operacionales se pueden encontrar aquellas que utilizan
datos estructurados o datos no estructurados:
Antes de que apareciese el concepto de Big Data para definir los grandes almacenes de
informacin que tuviesen distintos orgenes de datos se utilizaba el concepto de data
warehouse. Este concepto fue acuado por Will Inmon, a principios de los aos 90 y
plasmado en su libro Building the Data Warehouse.
Los data warehouse surgen para dar cabida a la informacin existente en los entornos
corporativos, que necesitaban estructurar la informacin existente en sus centros de
proceso de datos. Un data warehouse almacena la informacin con una estructura
homognea y permite dar una fiabilidad en las consultas y tratamientos posteriores a su
incorporacin.
Nivel organizacin
Data warehouse
departamental
Nivel
La creacin de un data mart puede estar motivada por una cuestin de seguridad;
no se quiere que los empleados de un departamento puedan acceder a la informacin
general de la empresa sino solo a la informacin relativa a su departamento. Para
mejorar el acceso y eficiencia a los datos haciendo que sea una mquina diferente la
que gestione los datos del data mart que la que gestiona la del data warehouse. O puede
darse por razones coyunturales, por el esquema de la base de datos que se va a utilizar o
porque es ms adecuado para establecer los accesos de los usuarios.
Otro concepto importante relacionado con los data warehouse son los metadatos. Un
metadato es la estructura que pueden tener los datos. Va a ser el molde por el cual los
datos van a organizarse y almacenarse dentro del data warehouse. De la definicin de
esos datos va a depender en gran medida la eficiencia posterior de la extraccin de los
datos. Adems, esos metadatos van a proporcionar la normalizacin de los distintos
orgenes de datos que el data warehouse necesita.
Los data warehouses se asemejan a los Big Data por tratar grandes cantidades de
informacin pero no son exactamente lo mismo. Las diferencias primordiales son
las siguientes:
Los datos que manejan los data warehouses son estructurados y almacenados para
su posterior consulta. En el caso de los Big Data los datos son de orgenes dispares
que van a necesitar un procesamiento previo para poder ser almacenados.
En los data warehouse los datos se aaden de manera peridica al sistema, ya sea
semanal o mensualmente. En cambio en Big Data los datos se suelen regenerar de
manera ntegra en el sistema cada cierto tiempo.
Tras haber depositado los datos dentro de un almacenamiento se hace necesario utilizar
herramientas y tcnicas que hagan que los datos tomen un sentido, adquieran un valor y
se transformen en informacin. Son diversas las herramientas existentes y se pueden
englobar en las siguientes:
Por otro lado, estn las herramientas anlisis de sentimiento o de opinin, que
permiten extraer el contenido de un texto indicando realmente su sentido de la opinin
o la subjetividad que quiere reflejar. Este tipo de herramientas permiten extraer de frases
textuales como: El acto principal fue esplndido, la positividad del mismo. Aunque
tienen sus retos con frases como El acto principal fue como se esperaba, en la que la
opinin no queda realmente reflejada.
Sentiment Analysis: Blogmeter e Celi al Sentiment Symposium di New York. Autor: Laura Caldarella.
Fuente: http://www.blogmeter.it/blog/eventi/2014/03/07/sentiment-analysis-speech-di-blogmeter-e-
celi-al-simposio-di-new-york/
Microsoft Releases Geoflow For Excel, A 3D Big Data Visualization Tool Built On Bing Maps. Autor:
Pradeep. Fuente: http://microsoft-news.com/microsoft-releases-geoflow-for-excel-a-3d-big-data-
visualization-tool-built-on-bing-maps/
Herramientas de redundancia
Esto no siempre es fcil de implementar, ya que supone que el sistema tenga que realizar
una inversin superior para la adquisicin de los equipos del sistema. Pero, dada la
criticidad de este tipo de infraestructuras, supone una inversin menor que la inversin
que supondra el dao producido por la prdida de informacin. Por lo que estas
inversiones siempre son muy recomendables.
Normalmente se opta por solo duplicar aquellas partes que son ms crticas, que al
producirse cierto error provocar un fallo mayor en el sistema.
Herramientas de seguridad
En cuanto a las herramientas analticas se tendrn que configurar los accesos a los
datos respecto a niveles de acceso y permisos de usuario.
Las aplicaciones desarrolladas tendrn que predecir los accesos que se realizarn
al sistema Big Data.
Cuando se quiere crear una infraestructura Big Data es necesaria la utilizacin de una
serie de herramientas y tcnicas. Estas tcnicas tienen que ser las ms adecuadas para
cubrir cada uno de los pasos necesarios para el tratamiento de informacin. Por eso lo
ms adecuado es colocar en paralelo las herramientas con la etapa en la que se debe
utilizar:
Bases de datos
Bases de datos
operacionales
Captura operacionales
no
estructuradas
estructuradas
Herramientas
Bases de datos de
Organizacin para la organizacin y
organizacin estructuracin
de datos
Data marts -
Data
Integracin warehouses
Mercados de
datos
Herramientas Herramientas
Informes de
Anlisis de anlisis de anlisis
resultados
Visualizacin
tradicionales avanzadas
Infraestructura
Herramientas Infraesructura para la
de soporte de seguridad redundancia
fsica de datos
Dentro de cada una de las tecnologas asociadas a Big Data existen distintas
herramientas que proveen las caractersticas descritas; algunas se restringen al campo
operacional, otras al campo analtico, y otras combinan herramientas de los dos tipos:
Arquitectura integrada:
Operacionales:
Analticas:
Big data landscape v 3.0 - Matt Turck (FirstMark). Autor: Matt Turck. Fuente:
http://www.slideshare.net/mjft01/big-data-landscape-matt-turck-may-2014
Hadoop
HDFS
(Almacenamiento redundante).
Hadoop YARN
Common (Gestin de recursos del cluster).
MapReduce
(Procesamiento de datos).
A parte de los mdulos principales, existen una serie de proyectos anexos que
proporcionan caractersticas auxiliares al marco. A los mdulos base junto con estos
proyectos es lo que se denomina ecosistema Hadoop.
Dentro del campo de la educacin, los sistemas de Big Data son herramientas muy
valiosas. Dan soporte al profesorado para llevar un mejor seguimiento del alumnado
y, por otro lado, ayudan promover el aprendizaje del alumno.
Cada una de ellas tiene unos objetivos especficos que se exponen a continuacin.
Por cada entrada que el alumno haga se adaptarn los contenidos a su seguimiento y
sus intereses.
Instalacin y preparacn
del sistema de
aprendizaje
Para que este sistema entre en funcionamiento de manera correcta es necesario tener un
control exhaustivo del sistema de aprendizaje. No cualquier sistema se va a
adaptar al entorno educativo que se quiere implementar, por lo que se hace necesario
estudiar profundamente las necesidades que se quieren cubrir y cules han sido los
antecedentes del sistema.
Por otro lado, es necesario estudiar y conocer cules son los sistemas software que se
adaptan mejor a esas necesidades, por lo que se hace necesario hacer un estudio de los
sistemas existentes. Adems, hay que contar con el sistema hardware necesario para su
instalacin.
Otro punto a tener en cuenta es las caractersticas de la informacin que se va a tener que
almacenar y carcter de la misma, ya que la cuestin de privacidad va a ser un factor
crtico. Dado que se estn registrando datos del alumno no todo el personal debera tener
acceso a los mismos.
Por estas razones se propone que los sistemas de Big Data para la educacin deben
tener como mnimo estas caractersticas:
Respecto al profesorado:
Tiene que quedar claro que la tecnologa tiene que ser una herramienta para que los datos
almacenados en los grandes volmenes de informacin puedan ser tratados o
manipulados, pero el esfuerzo de convertir los datos en conocimiento, hasta el momento
solo lo ha podido realizar el hombre.
CISCO (3 de febrero de 2015). Cisco Visual Networking Index: Global Mobile Data Traffic
Forecast Update 20142019 White Paper. Recuperado de
http://www.cisco.com/c/en/us/solutions/collateral/service-provider/visual-
networking-index-vni/white_paper_c11-520862.html
Inmon, W. H. (octubre, 2005). Building the Data Warehouse (4 ed.). Nueva York
(EE. UU.): Wiley.
RAE (2012). Diccionario de la lengua espaola (22 ed.) [Versin web]. Recuperado de
http://www.rae.es/
Lo + recomendado
Lecciones magistrales
En esta leccin magistral haremos un recorrido por las distintas herramientas existentes
para la visualizacin de grandes volmenes de datos y cmo se puede hacer uso de ellas.
No dejes de leer
Este artculo ofrece la evolucin del trmino de Big Data desde el punto de vista de las
empresas que en la actualidad ofrecen herramientas para el tratamiento masivo de
informacin (Intel, Oracle, etc.).
Accede al artculo a travs del aula virtual o desde la siguiente direccin web:
http://arxiv.org/pdf/1309.5821.pdf
No dejes de ver
Qu son los datos masivos? Big Bang Data es una exposicin itinerante que arranca en
el CCCB, el Centro de Cultura Contempornea de Barcelona. Nos acerca, por primera vez
en Espaa, al fenmeno de la explosin de datos, desde las artes, la poltica, la
investigacin y la participacin ciudadana.
Accede al vdeo a travs del aula virtual o desde la siguiente direccin web:
http://www.rtve.es/alacarta/videos/la-aventura-del-saber/aventura-del-saber-big-
bang-data/2822809/
No dejes de escuchar
Programa de Sostenible y renovable de Radio 5, que expone las actuaciones que est
llevando a cabo la Biblioteca Nacional para poner a disposicin del pblico el Big Data
cultural.
Accede al audio a travs del aula virtual o desde la siguiente direccin web:
http://www.rtve.es/radio/20150421/biblioteca-nacional-pondra-big-data-cultural-
disposicion-del-publico-espanol/1133641.shtml
+ Informacin
A fondo
En este informe, elaborado por CISCO, se hace un estudio del fenmeno de la utilizacin
de dispositivos mviles en la educacin.
Accede al informe a travs del aula virtual o desde la siguiente direccin web:
http://www.cisco.com/web/KR/events/smart_education/pdf/CiscoMobileLearningPh
enomenonWP_V2.pdf
Este informe explica la arquitectura bsica de un Big Data, sus necesidades y los
entornos en los que se aplica. Expone con claridad las necesidades de seguridad de estos
sistemas.
Accede al informe a travs del aula virtual o desde la siguiente direccin web:
http://www.uazone.org/demch/worksinprogress/sne-2013-02-techreport-bdaf-
draft02.pdf
Webgrafa
Pgina web que provee herramientas y recursos para promover e inspirar a los alumnos
la utilizacin de herramientas online.
Accede a la pgina web a travs del aula virtual o desde la siguiente direccin:
http://www.inspiring-science-education.net/home
Web y Wiki centrada en el proyecto Hadoop y los proyectos relacionados con las
herramientas que pueden ser integradas en l.
Accede a la pgina web a travs del aula virtual o desde la siguiente direccin:
http://hadoop.apache.org/
Bibliografa
Ackoff, R. L. (1989). From data to wisdom. Journal of Applied Systems Analysis, 15,
3-9.
Bates, T. (6 de febrero de 2012). Will big data answer our questions about online
learning? [Artculo en un blog]. Online learning and distance education resources.
Recuperado de http://www.tonybates.ca/2012/02/06/will-big-data-answer-our-
questions-about-online-learning/
Davis, B. G. (2009). Tools for Teaching. Nueva York (EE. UU.): Jossey-Bass (Wiley).
Kodali, P. Z. (2013). Big Data Analytics Using Splunk: Deriving Operational Intelligence
from Social Media, Machine Data, Existing Data Warehouses, and Other Real-Time
Streaming Sources (Expert's Voice in Big Data). Nueva York (EE. UU.): Apress.
Lam, C. (2010). Hadoop in Action. Nueva York (EE. UU.): Manning Publications.
Machlup, F. (1980). Knowledge and knowledge production. Nueva Jersey (EE. UU.):
Princeton University Press.
Mitchell, R. L. (23 de octubre de 2014). 8 big trends in big data analytics. [Artculo en un
blog]. Computer World. Recuperado de
http://www.computerworld.com/article/2690856/big-data/8-big-trends-in-big-data-
analytics.html
Sawant, N. y Shah, H. (2013). Big Data Application Architecture Q and A. Nueva York
(EE. UU.): Apress.
Zins, C. (2007). Conceptual approaches for defining data, information, and knowledge.
Journal of the American Society for Information Science and Technology, 58, 479-493.
Actividades
Descripcin de la actividad
En esta actividad debers desarrollar un trabajo en el que, como indica el ttulo, ser
necesario realizar un estudio de las herramientas existentes de visualizacin que pueden
aplicarse a entornos educativos con Big Data. Podrs elegir una de estas tres
orientaciones:
Pautas de elaboracin
Introduccin.
Estudio de la materia.
Conclusiones.
Objetivos
Criterios de evaluacin
Test
1. El concepto de Big Data segn su definicin solo tiene los siguientes datos asociados:
velocidad, valor y veracidad.
A. Verdadero.
B. Falso.
4. Las tcnicas que estn combinadas para la gestin de Big Data son:
A. Operacionales.
B. Analticas.
C. Constructivas.
D. Seguimiento.
10. Indica cules de los siguientes forman parte de los componentes bsicos de Hadoop:
A. MapReduce.
B. Fix.
C. YARN.
D. Hive.