You are on page 1of 19

INSTITUTO TECNOLGICO DE ZACATEPEC.

26/Mayo/2016

GRANDES DE DATOS Y NOSQL


Catedrtico: Cartujano Escobar Francisco Javier

PROYECTO FINAL
Integrantes del equipo:
Garca Caldern Silvia Geraldine.
Guerrero Prez Jessica Alejandra.
Aguilar Ocampo Karem Merilu.
Amasende Pineda Dylan.
Simn Caldern Rubn.

pg. 1

INDICE
PROYECTO FINAL ................................................................................................... 3
ARQUITECTURA DISTRIBUIDA CON HADOOP PARA PROCESAR DATOS. ............ 3
DESARROLLO: ...................................................................................................... 3
BASE DE DATOS EN MYSQL.................................................................................... 4
CREACIN DE LA BD. ...................................................................................... 4
INSERCIONES EN LA BASE DE DATOS .................................................................... 4
INSERCIONES ................................................................................................... 4
MIGRACIN DE SQOOP A HADOOP ................................................................... 5
PROCESOS EN PIG ............................................................................................... 13
EXPORTACIN DE PROCESOS ANTERIORES A MYSQL ...................................... 17
.............................................................................................................................. 18
PROGRAMA DE VISUALIZACIN DE RESULTADOS ............................................. 19

pg. 2

PROYECTO FINAL
ARQUITECTURA DISTRIBUIDA CON HADOOP PARA PROCESAR DATOS.
DESARROLLO:
1. Considere en MySQL las siguientes tablas:
Clientes (idC, nombre, edad, sexo, nacionalidad)
Productos(idP, nombre, tipo, precio_compra, precio_venta)
facturaGeneral (idFactura, idC, fecha); // que abarque los 365 dias del
ao.
FacturasDetalle(idFacturas, idP, cantidad, precio_unitario_venta);
2. Considerar el siguiente nmero de tuplas:
a) Clientes: 10; 2 nacionalidades
b) Productos: 20 (5 tipos y de cada tipo 4 productos)
c) FacturaGeneral: 200,000 facturas (generadas por un programa, con datos
validos aleatorios); que abarquen un ao (todos los meses y das).
d) FacturaDetalle: 800,000 facturas (4 productos por Factura, generados por
programa, con datos validos aleatorios).
3. Utilizando Sqoop, migrar las tablas anteriores a Hadoop.
4. Implementar un cluster de hadoop con al menos 3 mquinas.
5. Implementar por medio de pig, los procesos que obtengas la siguiente info:
a) Total de factura (idFactura, total$);
b) Total por mes (nombre-mes, total$);
c) Total por producto (nombre_producto, total$);
d) Total por tipo, producto(tipo_producto, total$, vantidad_vendida);
e) Total por mes, producto(nombre_mes, nombre_producto, total$);
f) Total por mes, tipo (nombre_mes, nombre_tipo, total$, c
antidad_vendida);
g) Los 5 productos ms vendidos (idP, nombre, tipo, total$,
cantidad_vendida);
6. Procesar los procesos anteriores en el cluster de hadoop.
7. Exportar los resultados anteriores a MySQL.
8. Realizar un programa en (java, c, c++, c, etc) que visualice los resultados del
paso 5.
9. Documentacin formal.
10. Entregar de 24 al 27 de mayo.

pg. 3

Base de datos en MySQL


Creacin de la BD.
Cliente
s
Producto
s
FacturaGral
FacturaDeta

Inserciones en la base de datos


Inserciones

Clientes

Productos

pg. 4

FacturaGral

FacturaDeta

Migracin de Sqoop a Hadoop


Ingresamos a Syncfusion Big Data Platform, y seleccionamos la opcin Launch
Studio.

pg. 5

Seleccionamos la pestaa SQOOP.


Nos parecer una ventana donde nos informa que tenemos que tener el conector de
java (JDBC). Para instalarlo solo damos clic en el link.

Descargamos el conector con extensin .zip

pg. 6

Descomprimimos el archivo donde se encuentra el conector y lo copiamos en la


siguiente ruta: C:\Syncfusion\BigData\2.11.0.92\BigDataSDK\SDK\Sqoop\lib

En Big Data studio, agregamos un nuevo trabajo (add job).

Despus nos mostrara una ventana, en la parte inferior izquierda de la ventana donde
dice + Add Conection.

pg. 7

En la siguiente ventana para agregaremos una conexin.


Llenamos los campos requeridos, y damos clic en el botn Save.

1. Llenar los campos


requeridos

2. Guardamos

Ahora crearemos un New Job.


Llenamos los campos correspondientes y seleccionamos un tipo de trabajo (Import)
y damos clic en Next.

1. Llenar los campos


requeridos

2. Seleccionar el tipo.

pg. 8

Ingresamos el nombre de la BD de la que queremos hacer la importacin.


Seleccionamos la opcin de importar todas las tablas Next.
NOTA: Tambin se puede indicar solo el nombre de las tablas que se desean importar
en caso de que no queramos importar todas. Damos clic en el botn Next.

Indicamos el nombre del directorio HDFS donde se guardarn las tablas que se
van a importar de MySQL clic en el botn Save & Run.

pg. 9

Tardar un momento la importacin de la base de datos ventas a HDFS.

En el apartado Import aparece el estado de la importacin la cual en este caso se


llev a cabo satisfactoriamente.

pg. 10

Seleccionamos la pestaa HDFS y observamos que se gener la carpeta


importacionMysql doble clic sobre esa carpeta.

Dentro de esa carpeta, se encuentran 4 carpetas cada una contiene un archivo con
los datos de cada tabla de la base de datos (ventas).

pg. 11

Damos doble clic sobre la carpeta clientes abrimos el archivo part-m-00000

Aparecer una ventana con el contenido del archivo que corresponde al contenido
de la tabla clientes de la base de datos ventas.

NOTA: Tambin se pueden visualizar el contenido de cada una de las carpetas. Esto
(ventas) como se mostr anteriormente.

pg. 12

Procesos en PIG
a) Total de factura (idFactura, total$);

Ejecucin

Resultado

pg. 13

b) Total por mes (nombre-mes, total$);

Ejecucin

Resultado

pg. 14

c) Total por producto (nombre_producto, total$);

Ejecucin

Resultado

pg. 15

d) Total por tipo, producto(tipo_producto, total$, vantidad_vendida);

Ejecucin

Resultado

pg. 16

Exportacin de procesos anteriores a MySQL

pg. 17

pg. 18

Programa de visualizacin de resultados


Realizamos un programa en Java que nos permite visualizar los datos
anteriores.
Pantalla principal

La siguiente imagen muestra todas las tablas que podremos visualizar.

1. Seleccionar la
tabla.
2. En esta parte se
mostrara el resultado.

pg. 19

You might also like