Professional Documents
Culture Documents
26/Mayo/2016
PROYECTO FINAL
Integrantes del equipo:
Garca Caldern Silvia Geraldine.
Guerrero Prez Jessica Alejandra.
Aguilar Ocampo Karem Merilu.
Amasende Pineda Dylan.
Simn Caldern Rubn.
pg. 1
INDICE
PROYECTO FINAL ................................................................................................... 3
ARQUITECTURA DISTRIBUIDA CON HADOOP PARA PROCESAR DATOS. ............ 3
DESARROLLO: ...................................................................................................... 3
BASE DE DATOS EN MYSQL.................................................................................... 4
CREACIN DE LA BD. ...................................................................................... 4
INSERCIONES EN LA BASE DE DATOS .................................................................... 4
INSERCIONES ................................................................................................... 4
MIGRACIN DE SQOOP A HADOOP ................................................................... 5
PROCESOS EN PIG ............................................................................................... 13
EXPORTACIN DE PROCESOS ANTERIORES A MYSQL ...................................... 17
.............................................................................................................................. 18
PROGRAMA DE VISUALIZACIN DE RESULTADOS ............................................. 19
pg. 2
PROYECTO FINAL
ARQUITECTURA DISTRIBUIDA CON HADOOP PARA PROCESAR DATOS.
DESARROLLO:
1. Considere en MySQL las siguientes tablas:
Clientes (idC, nombre, edad, sexo, nacionalidad)
Productos(idP, nombre, tipo, precio_compra, precio_venta)
facturaGeneral (idFactura, idC, fecha); // que abarque los 365 dias del
ao.
FacturasDetalle(idFacturas, idP, cantidad, precio_unitario_venta);
2. Considerar el siguiente nmero de tuplas:
a) Clientes: 10; 2 nacionalidades
b) Productos: 20 (5 tipos y de cada tipo 4 productos)
c) FacturaGeneral: 200,000 facturas (generadas por un programa, con datos
validos aleatorios); que abarquen un ao (todos los meses y das).
d) FacturaDetalle: 800,000 facturas (4 productos por Factura, generados por
programa, con datos validos aleatorios).
3. Utilizando Sqoop, migrar las tablas anteriores a Hadoop.
4. Implementar un cluster de hadoop con al menos 3 mquinas.
5. Implementar por medio de pig, los procesos que obtengas la siguiente info:
a) Total de factura (idFactura, total$);
b) Total por mes (nombre-mes, total$);
c) Total por producto (nombre_producto, total$);
d) Total por tipo, producto(tipo_producto, total$, vantidad_vendida);
e) Total por mes, producto(nombre_mes, nombre_producto, total$);
f) Total por mes, tipo (nombre_mes, nombre_tipo, total$, c
antidad_vendida);
g) Los 5 productos ms vendidos (idP, nombre, tipo, total$,
cantidad_vendida);
6. Procesar los procesos anteriores en el cluster de hadoop.
7. Exportar los resultados anteriores a MySQL.
8. Realizar un programa en (java, c, c++, c, etc) que visualice los resultados del
paso 5.
9. Documentacin formal.
10. Entregar de 24 al 27 de mayo.
pg. 3
Clientes
Productos
pg. 4
FacturaGral
FacturaDeta
pg. 5
pg. 6
Despus nos mostrara una ventana, en la parte inferior izquierda de la ventana donde
dice + Add Conection.
pg. 7
2. Guardamos
2. Seleccionar el tipo.
pg. 8
Indicamos el nombre del directorio HDFS donde se guardarn las tablas que se
van a importar de MySQL clic en el botn Save & Run.
pg. 9
pg. 10
Dentro de esa carpeta, se encuentran 4 carpetas cada una contiene un archivo con
los datos de cada tabla de la base de datos (ventas).
pg. 11
Aparecer una ventana con el contenido del archivo que corresponde al contenido
de la tabla clientes de la base de datos ventas.
NOTA: Tambin se pueden visualizar el contenido de cada una de las carpetas. Esto
(ventas) como se mostr anteriormente.
pg. 12
Procesos en PIG
a) Total de factura (idFactura, total$);
Ejecucin
Resultado
pg. 13
Ejecucin
Resultado
pg. 14
Ejecucin
Resultado
pg. 15
Ejecucin
Resultado
pg. 16
pg. 17
pg. 18
1. Seleccionar la
tabla.
2. En esta parte se
mostrara el resultado.
pg. 19