Reto 2 Aplicacion de Herramientas Ney Muñoz

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA
MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN

BIG DATA (ELECTIVA I) - 214021A_471
RETO 2
APLICACIÓN DE HERRAMIENTAS DE TRANSFERENCIA
PRESENTADO POR
NEY HERNANDO MUÑOZ SANCHEZ
COD. 16.761.740
nhmunozs@unadvirtual.edu.co
GRUPO: 214021_1
TUTOR
ROBERTO MAURICIO CARDENAS
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD

ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERÍA
MARZO DE 2018
29
1. APLICACIÓN DE HERRAMIENTAS DE TRANSFERENCIA
1.1. Chalenge2
https://docs.google.com/spreadsheets/d/1gAjkBcCTCqrJxLx7klHxsgrItPcYgVtnX3sCQKt
4uJk/edit?usp=sharing
1.2. Chalenge3
1.2.1. Análisis de grafo de contactos de Facebook
Paso 1: Importar el archivo GDF
En el menú file se selecciona spreadsheet, tal como se muestra en la siguiente imagen:
En la ventana open se selecciona el archivo generado desde la página

https://tools.lucahammer.at/jsongdf, con el archivo de extensión json (el cual fue generado
utilizando el complemento de Google Crome Facebook Friends Visualizer – Lost Circles).
29
Aparece la siguiente ventana en donde muestra el número de nodos y de aristas entre otros.
Paso 2: Primera visualización
29
Se podrá observar una red densa como la se muestra a continuación:
Dependiendo del número de nodos habrá una mayor densidad y al ser una visualización
aleatoria podrá ser diferente cada vez que se realice.
Paso 3: Familiarizarse con la visualización
Se puede usar el mouse para moverse por moverse por la visualización. La rueda para hacer
zoom y el botón derecho para recorrer el gráfico.
Se puede aumentar o disminuir el grosor de las aristas, quitar o poner las aristas, cambiar el
color y espesor entre otros. La siguiente imagen muestra estas opciones:
29
Si con los ajustes realizados no se puede observar el gráfico por la posición del mismo en la
ventana, se puede restablecer y lograr visualizarlo completamente a través del icono que
representa una lupa, como se observa a continuación:
Reest
ablec
er
imag
en
Paso 4: Distribución - Layout del Gráfico
Los algoritmos de distribución componen la forma gráfica del grafo, por lo cual se
convierten en algo esencial de la herramienta.
29
Para ilustrar su uso se seleccionará como ejemplo el layout Yifan Hu Proportional.

Haciendo clic en ejecutar (run), se obtiene lo siguiente:
29
Paso 5: Control de Layout del Gráfico
El propósito de las propiedades del panel de distribución (Layout), es que el usuario pueda
tomar control del algoritmo para hacer una representación estética más agradable. A manera
de ejemplo se modifica la propiedad “Initial Step Size”, pasando de un valor de 20.0 a 10.0,
obteniendo el siguiente resultado:
Nuevamente volviendo al algoritmo aleatorio, y modificando la propiedad “Space Size”,

pasando de un valor de 100 a 1000, se obtiene el siguiente resultado:
29
Paso 6: Configurar la Apariencia
El módulo de apariencia se utiliza para configurar el tamaño y color de los nodos y de las
aristas.
Como ejemplo se configura para que el color de los nodos sea rojos y las aristas verdes,
obteniendo en siguiente resultado:
29
Paso 7: Calcular medidas
A través del módulo de estadísticas se puede realizar una seré de medidas del grafo
analizado.
Como ejemplo se podría medir la longitud media de camino para todos lo pares posibles, lo
cual nos da la cercanía entre los nodos (Avg. Path Length), para ello, se hace clic run del
indicador de esta medida.
Y se obtiene un cuadro de medidas como es el que se muestra a continuación:
29
29
Paso 8: Mostrar Etiquetas
Además de cambiar el tamaño y color de los nodos y las aristas Gephi permite mostrar las
etiquetas de los nodos a través de la siguiente opción:
Como se puede observar se puede indicar si se incluye o no las etiquetas, el tipo y tamaño
de letra y color.
En esta opción se puede seleccionar que atributo se quiere mostrar en el grafo. Los atributos
disponibles son: id, label y userid.
29
Paso 9: Filtración
A través de esta herramienta también se pueden crear filtros para seleccionar que nodos se
quieren mostrar en la gráfica del grafo
En este caso se filtró por la categoría Degree Range Settings, tomando como punto de
partida 33.
29
Paso 10: Previsualización
Una vez se haya terminado todos los cambios a la gráfica se pude hacer una
previsualización, como se muestra en la siguiente imagen:
Cada vez que se haga cambios en la gráfica se debe hacer clic en la pestaña refrescar para
observar los cambios.
29
1.2.2. Concepto de data Storytelling
El concepto de Data Storytelling consiste en dar un enfoque estructurado sobre cómo

comunicar las ideas a partir de los datos, e involucra una combinación de tres elementos:
datos, visualización y narrativa. Esta combinación permite explicar qué ha pasado y por
qué una idea puede ser importante en el análisis, permite añadir una visualización de los
datos y pueden explicar ideas que de otra manera no sería posible hacerlo.
Para el análisis del grafo de los contactos de Facebook, se hizo uso del software Gephi
0.9.2, el cual permite dar aplicabilidad al concepto de Data Storytelling. En primera
instancia permitió conocer el número de nodos y aristas del grafo, como se ilustra a
continuación:
Se identificaron 167 nodos, lo cual representa el número de amigos en Facebook y 2049

aristas o número de relaciones entre los nodos.
Una vez cargados los datos lo primero que se hizo fue conocer la distancia y la centralidad
de la red analizada y para ello se utilizó el estadístico “average path length”, obteniendo
como resultado las imágenes que se muestran a continuación:
29
Luego se ejecutó el estadístico Modularity. El modularidad usa un algoritmo de detección

de comunidad que permite agrupar nodos relacionados. En la red que se analiza se
encontraron 11 comunidades como muestra la imagen siguiente:
Ahora que se ha ejecutado estos cálculos, se dimensionaran los nodos. En el lado superior
izquierdo de Gephi, seleccionando la pestaña Nodos y luego seleccionando "centralidad
entre sí", con tamaño mínimo y máximo 10 y 50 se obtiene la siguiente gráfica:
29
Lo que muestra esta grafica son los nodos coloreados según los resultados del algoritmo de
detección de comunidad, de acuerdo con sus atributos comunes y la relación entre ellos.
Ahora se dará a los resultados un aspecto más ilustrativo. Debajo de la ventana Particiones
y Clasificación a la izquierda hay una opción de Diseño. Esto permite usar diferentes
algoritmos para diseñar los nodos y los bordes. El mejor para este tipo de datos es Force
Atlas. Simplemente se selecciona, marcando "prevent overlay" y presionado "aplicar". La
imagen muestra claramente los nodos, así como las conexiones entre ellos.
29
Jugando un poco con los datos se pueden revelar algunas conexiones interesantes. Durante
este ejercicio, por ejemplo, se descubrió algunos patrones que indican las etapas de la vida
de la red amigos que se analiza. Por ejemplo, los nodos representados con color verde
corresponden a los amigos de mi época de adolescencia, los nodos representados con color
fucsia corresponden a los amigos de la época del colegio, los nodos representados con el
color azul corresponden a los amigos de la época universidad, luego aparecen varios nodos
en la zona central de la gráfica de distintos colores, los cuales están representando la época
después de grado de la universidad e inicio de la época laboral. Finalmente, los nodos
representados con color rosado corresponden a mis amigos de actualidad, los cuales están
muy relacionados con mi vida laboral.
En la siguiente gráfica se puede evidencia lo anteriormente expuesto, dado que, se incluyen

los labels de los nodos, que en este caso corresponden a los nombres de mi red de amigos
de Facebook.
29
1.2.3. Ejercicio de Predicción de Ventas
Se desea hacer una predicción de las ventas de vehículos en Colombia, para lo cual se
cuenta con una serie de datos sobre las ventas de vehículos entre los años 1997 y 2013,
datos que fueron tomados de la página del DANE.
29
Para la predicción se utiliza la función pronóstico de Excel, tomando como datos de

entrada la columna Año y la columna Total, inicio del pronóstico el año 2013, fin del
pronóstico el año 2025, detección automática de estacionalidad e intervalo de confianza
del 95%.
Los resultados obtenidos fueron los siguientes:
29
Finalmente se indica que el pronóstico de ventas se hace con base una regresión lineal
utilizando la siguiente ecuación:
A continuación, se muestra la gráfica de predicción:
29
1.3. Chalenge4
1.3.1. Instalación de la máquina virtual CLOUDERA

Antes de instalar la maquina virtual se instalo en la computadora el sofwtare de virtualizción
VIRTUALBOX, como se muestra en la siguiente imagen:
Luego de instarlar el software de VIRTUALBOX, se imporrta el archivo de la maquina

CLOUDERA
Se procedió con la instalación con los parámetros que por default tiene la máquina virtual:
29
En las siguientes dos imágenes se muestra el avance porcentual del proceso de importacion de la
maquina virtual CLOUDERA.
29
Una vez terminado el proceso de importacion la maquina virtual CLOUDERA queda lista
para iniciarla:
En la siguiente imagen se puede observar el proceso de inicio de la maquina virtual. Es

importante anotar que esta maquina funciona con sistema operativo LINUX de la
distribución CENTOS versión 6.7.
29
En la siguiente imagen se pude evindenciar que la maquina fue iniciada exitosamente.
29
1.3.2. Ejercicio de MAP REDUCE
Para realizar este ejercicio se tomó como referencia el documento “Introducción al manejo
de datos masivos con HADOOP”, de Agustín Caminero y Luis Grau (2016).
En este ejercicio se van a utilizar datos de YELP, que se pueden descargar del siguiente
enlace: http://www.yelp.com/dataset_challenge/. Desde este enlace, clicando en el enlace
“Get the data”, y tras rellenar un formulario de datos personales, se descarga un fichero
comprimido que contiene, entre otros los siguientes ficheros:
 business.json: fichero que contiene información de negocios.

 review.json: fichero que contiene información de opiniones.
Los datos de los negocios que se tienen son los siguientes:
“city", "review_count", "name", "neighborhoods", "type", "business_id", "full_address",

"hours", "state", "longitude", "stars", "latitude", "attributes", "open", "categories“.
Los datos más importantes con los que trabajará en este ejercicio son:
 review_count: contador de opiniones.
 Latitude, altitude: coordenadas geográficas
 business_id: un identificador para el negocio.
 categories: el tipo de negocio (ej. Restaurante, …)
También se tienen datos de opiniones:
"funny", "useful", "cool", "user_id", "review_id", "text", "business_id", "stars", "date",

"type"
29
Los datos más importantes con los que se trabajaran en este ejercicio son:
 Text: el texto de la opinión, que refleja la descripción que el usuario de Yelp ha

realizado sobre ese negocio.
 Cool: un número entero que cuanto más alto, mejor es la valoración de este negocio.
Los datos de Yelp Challenge son datos en formato JSON, es decir, que tienen una estructura
como la que sigue, en la que para cada campo tiene su nombre seguido de su valor:
Ejemplo de negocios:
{"business_id": "vcNAWiLM4dR7D2nwwJ7nCA", "full_address": "4840 E Indian

School Rd\nSte 101\nPhoenix, AZ 85018", "categories": ["Doctors", "Health &
Medical"], "city": "Phoenix", "review_count": 9, "name": "Eric Goldberg, MD",
"longitude": -111.98375799999999, "stars": 3.5, "latitude": 33.499313000000001}
Ejemplo de opiniones:
{"votes": {"funny": 0, "useful": 2, "cool": 1}, "user_id":

"Xqd0DzHaiyRqVH3WRG7hzg", "stars": 5, "date": "2007-05-17", "text": "dr. goldberg
offers everything i look for in a general practitioner", "type": "review", "business_id":
"vcNAWiLM4dR7D2nwwJ7nCA"}
Ahora se iniciará HUE, para lo cual se deberá ejecutar el navegador de Internet. En la

página de inicio del navegador de Internet del entorno virtual (ver Figura 19), se hace click
en el botón que dice “Launch Hue UI”. Para conectarte a HUE se deberá utilizar los
siguientes datos de acceso:
29
29
Ahora se cargarán los dos ficheros en el clúster de Hadoop. Este punto se realiza desde la
opción “File Browser” situada arriba a la derecha en el interfaz de HUE.
Seguidamente, se crearán tablas partiendo de estos ficheros, una llamada “business” y otra
llamada “reviews”. Este paso se realiza desde “Data Browsers” → “Metastore tables”. Se
debe prestar atención a que las columnas de las tablas tengan los nombres correctos. Para
29
nombrar las columnas, se hace click en “Bulk edit column names” y se pega los nombres de
las columnas correspondientes a la tabla que se están creando.
Una vez las tablas estén creadas con los datos correctos, se crea una consulta utilizando el
editor de Hive (esto se encuentra en “Query editors”-> “Hive”) con el siguiente contenido:
SELECT name, review_count

FROM business
ORDER BY review_count DESC
LIMIT 25
Esta consulta devuelve el nombre y el contador de opiniones de los 25 negocios que mayor
número de opiniones tengan. Para ejecutar esta consulta se hace click en “Execute”.
Tras ejecutarla, si se va a la opción “Chart” se podrán ver sus resultados graficados de

varias formas diferentes.
29
BIBLIOGRAFIA
Caminero, A., Grau, L. (2016). “Introducción al manejo de datos masivos con HADOOP”.
Recuperado de http://www.cartagena99.com/recursos/alumnos/apuntes/Practica-
SBD-2015-16_v1.pdf
Power Data. (s.f.). Big Data: ¿En qué consiste? Su importancia, desafíos y gobernabilidad.
Recuperado de https://www.powerdata.es/big-data
Visión Software. (2017). Las 5 Vs que caracterizan el concepto de big data. Recuperado de
http://www.visionsoftware.com.co/las-5-vs-que-caracterizan-el-concepto-de-big-data/
29

Reto 2 Aplicacion de Herramientas Ney Muñoz

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Reto 2 Aplicacion de Herramientas Ney Muñoz

Uploaded by

Copyright:

Available Formats

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA

MAESTRÍA EN GESTIÓN DE TECNOLOGÍA DE INFORMACIÓN

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD

1. APLICACIÓN DE HERRAMIENTAS DE TRANSFERENCIA

1.2.1. Análisis de grafo de contactos de Facebook

Paso 1: Importar el archivo GDF

En el menú file se selecciona spreadsheet, tal como se muestra en la siguiente imagen:

En la ventana open se selecciona el archivo generado desde la página

Paso 2: Primera visualización

Se podrá observar una red densa como la se muestra a continuación:

Paso 3: Familiarizarse con la visualización

Paso 4: Distribución - Layout del Gráfico

Para ilustrar su uso se seleccionará como ejemplo el layout Yifan Hu Proportional.

Paso 5: Control de Layout del Gráfico

Nuevamente volviendo al algoritmo aleatorio, y modificando la propiedad “Space Size”,

Paso 6: Configurar la Apariencia

Paso 7: Calcular medidas

Y se obtiene un cuadro de medidas como es el que se muestra a continuación:

Paso 8: Mostrar Etiquetas

Paso 10: Previsualización

1.2.2. Concepto de data Storytelling

El concepto de Data Storytelling consiste en dar un enfoque estructurado sobre cómo

Se identificaron 167 nodos, lo cual representa el número de amigos en Facebook y 2049

Luego se ejecutó el estadístico Modularity. El modularidad usa un algoritmo de detección

En la siguiente gráfica se puede evidencia lo anteriormente expuesto, dado que, se incluyen

1.2.3. Ejercicio de Predicción de Ventas

Para la predicción se utiliza la función pronóstico de Excel, tomando como datos de

Los resultados obtenidos fueron los siguientes:

A continuación, se muestra la gráfica de predicción:

1.3.1. Instalación de la máquina virtual CLOUDERA

Luego de instarlar el software de VIRTUALBOX, se imporrta el archivo de la maquina

En la siguiente imagen se puede observar el proceso de inicio de la maquina virtual. Es

En la siguiente imagen se pude evindenciar que la maquina fue iniciada exitosamente.

1.3.2. Ejercicio de MAP REDUCE

 business.json: fichero que contiene información de negocios.

Los datos de los negocios que se tienen son los siguientes:

“city", "review_count", "name", "neighborhoods", "type", "business_id", "full_address",

También se tienen datos de opiniones:

"funny", "useful", "cool", "user_id", "review_id", "text", "business_id", "stars", "date",

 Text: el texto de la opinión, que refleja la descripción que el usuario de Yelp ha

{"business_id": "vcNAWiLM4dR7D2nwwJ7nCA", "full_address": "4840 E Indian

{"votes": {"funny": 0, "useful": 2, "cool": 1}, "user_id":

Ahora se iniciará HUE, para lo cual se deberá ejecutar el navegador de Internet. En la

SELECT name, review_count

Tras ejecutarla, si se va a la opción “Chart” se podrán ver sus resultados graficados de

You might also like