Professional Documents
Culture Documents
Microsoft Azure
SQL Data Warehouse
José Redondo
Microsoft SQL Server MVP | CEO EntornoDB | DPA SolidQ
redondoj@gmail.com | @redondoj | redondoj.wordpress.com
Expositor
• CEO de EntornoDB, USA
• Arquitecto de Datos – Especialista en Inteligencia de Negocio, Análisis de Datos y Big Data
• Desarrollador de aplicaciones de Escritorio, Web y Bases de Datos en .NET y Java
• Desarrollador y DBA en plataformas de datos Microsoft, SyBase, IBM y Oracle
• Conferencista en eventos tecnológicos de Microsoft y PASS en Latinoamérica y Estados Unidos
• SQL Server MCP - MSTS – MTA
• DPA SolidQ
• Contributing Technical Reviewer Packt Publishing
• Microsoft SQL Server MVP
Introducción a Microsoft Azure
SQL Data Warehouse
Agenda
• Análisis: La Tradicional "Bodega de datos" y La Moderna "Bodega de datos"
• Arquitectura: Microsoft APS (Analytics Platform System)
• Hadoop & PolyBase
• Performance y Escalabilidad
• Beneficios
• Resumen
• Preguntas y Respuestas
Análisis:
La Tradicional "Bodega de datos“ y
La Moderna "Bodega de datos"
Microsoft & Bodega de Datos
2008 2010 2011
APS (On-Premises)
APS y SQL DW: Estrategia Hibrida
La Tradicional Bodega de Datos
Orígenes de Datos
1 Incrementando el
volumen de datos
Datos No Relacionales
Nuevos orígenes
2
y tipos de datos
La tradicional Bodega de Datos
Datos originados
3
desde la nube
La tradicional Bodega de Datos
Consumidores
4
de datos
El Moderno Almacén de Datos
MPP - • Utiliza muchos CPU's separados en paralelo para ejecutar un solo programa
Procesamiento en • Nada Compartido: Cada CPU tiene su propia memoria y disco (Scale-Out)
• Los Segmentos se comunican a través de la red de alta velocidad entre
Paralelo Masivo
Nodos
Arquitectura:
Microsoft APS
(Analytics Platform System)
Arquitectura lógica
Nodo “Control” – La “Razón de Ser”
de SQL Data Warehouse
• También funciona con Azure SQL
DMS
Server DB
Nodo “Control”
• Mantiene una copia del "Interprete
SQL de comando o Shell" de cada base
de datos
• Metadatos, Estadísticas, etc.
• El "Rostro Público" de la Aplicación
Arquitectura lógica DMS
Almacenamiento
Nodo “Compute”
SQL
Balanceado
almacenamiento
DMS
Almacenamiento
Nodo “Compute”
SQL
Balanceado
Arquitectura lógica
DMS
Almacenamiento
Nodo “Compute”
Balanceado Data Movement Services (DMS)
SQL
DMS
Almacenamiento
Nodo “Compute”
SQL
Balanceado
Arquitectura lógica
DMS
Almacenamiento
Nodo “Compute”
Balanceado
SQL
DMS
Almacenamiento
Nodo “Compute”
Balanceado
SQL
DMS
Nodo “Control”
DMS
SQL
Almacenamiento
Nodo “Compute”
Balanceado
SQL
DMS
Almacenamiento
Nodo “Compute”
Balanceado
SQL
Opciones de la capa de datos DMS
T P
Almacenamiento
Nodo “Compute”
D D
Time Dim Product Dim
Balanceado
S C
D D
Date Dim ID Prod Dim ID SQL
Calendar Year Prod Category
Esquema Estrella Calendar Qtr Prod Sub Cat
Calendar Mo Prod Desc
Calendar Day
DMS
Nodo “Compute”
T
D
P
D Almacenamiento
SQL
S
D
C
D Balanceado
Sales Fact
Store Dim
Date Dim ID
Sales Fact
Store Dim ID Store Dim ID
Store Name DMS
Prod Dim ID
Store Mgr
Cust Dim ID Nodo “Compute”
T
D
P
D Almacenamiento
Store Size
Qty Sold S
D
C
D Balanceado
Dollars Sold Customer Dim SQL
Cust Dim ID
Cust Name
Cust Addr
Cust Phone
Cust Email
Replicado
DMS
T P
Almacenamiento
Nodo “Compute”
D D
Distribuido
PARTITION FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSalesF
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSalesF
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSalesF
(OrderDateKey RANGE RIGHT FOR VALUES F FF F F F FF F F F FF F F
( 19950601, FactSales_
FactSales_
FactSales_
FactSales_
FactSales_ FactSales_
FactSales_
FactSales_
FactSales_
FactSales_ FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSalesG FactSalesG FactSalesG
19950901, GGGGG GGGGG GGGGG
) ) ); FactSales_
FactSales_
FactSales_
FactSales_
FactSales_ FactSales_
FactSales_
FactSales_
FactSales_
FactSales_ FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSalesH FactSalesH FactSalesH
HHHHH HHHHH HHHHH
APS
Balanceo equilibrado
de carga entre
servidores
Ship Disks
Azure Storage Todos los Tipos de
HDInsight Datos Analíticos con
Herramientas Power BI + ML
de migración
Flexibilidad en tiempo real
• Produzca alternativas de grandes cargas
de trabajo, generando períodos bajos de
actividad diaria.
• Obtenga tiempo de visualizar
requerimientos basado en lo que usted
necesita, cuando usted lo necesita.
• Elija el combo de cálculo y
almacenamiento de información que
satisfaga sus necesidades.
Flexibilidad en tiempo real
Cuando está en Pausa, Pague sólo por
Almacenamiento
Utilícelo sólo cuando lo necesite, sin recargar o
restaurar datos
SQL DB
Niveles de servicio Verdadera Experiencia SQL Server
Magnificas herramientas de trabajo
*
Hadoop & PolyBase
Qué es Hadoop?
Hadoop Cluster
OPERATIONAL DATA compute
SERVICES SERVICES
&
storage . . . .
AMBARI . . . . .
FLUME
HIVE & compute
OOZIE PIG HCATALOG . . . . &
storage
SQOOP
FALCON HBASE
LOAD &
34 Hadoop Clusters proporcionan
EXTRACT MAP almacenamiento de
REDUCE escalabilidad horizontal y
NFS
YARN procesamiento de datos
Core Services distribuido en el hardware en
WebHDFS HDFS
cada uno de los servicios
básicos
Qué es Hadoop?
Instancia SQL DW
Hadoop VMs /
PolyBase Azure Storage
Escalabilidad de computo
Consulta de datos no estructurados mediante
Polybase/T-SQL
Polybase para consultar y administrar datos no relacionales de Hadoop y datos relacionales
• Permite capacidades de consultar a través
de distribuciones de Hadoop comunes
(HDP y Cloudera) y formatos de archivo de
Hadoop en Azure Storage.
• Permite el aprovechamiento de las
habilidades de SQL existentes y
herramientas de BI
• Soporta múltiples formatos de archivo no
relacionales
• Mejora el ciclo de conocimiento y
conceptualización de ideas y generación
de ETL simplificado
Consultar datos Hadoop con T-SQL
utilizando PolyBase
Otros (SQL Server, DB2,
Reunir a todos los paradigmas de Oracle)?
almacenamiento o Big Data y a los Verdaderos motores de Select… Result set
repositorios de datos en conjunto para consultas federadas
los usuarios finales e IT Windows Azure Storage-Blob
(WASB)
SQL DW
Windows Azure
HDInsight (HDP 2.1)
(HDFS)
PolyBase
Cloudera CHD Linux 4.6
Hortonworks HDP 2.1
(Windows, Linux)
SQL DW
Consultar datos Hadoop con T-SQL utilizando
PolyBase
Reunir a todos los paradigmas de almacenamiento o Big Data y a los repositorios de datos
en conjunto para los usuarios finales e IT
• Proporciona un modelo único de consulta T-SQL
("Capa semántica") para APS y Hadoop con ricas
características de T-SQL, incluyendo uniones sin
ETL
• Utiliza el poder del MPP para mejorar el
rendimiento de ejecución de consultas
• Compatible con Windows Azure HDInsight para
habilitar nuevos escenarios de nube híbrida
• Proporciona la capacidad de consulta de las
distribuciones de Hadoop no Microsoft, como
Hortonworks y Cloudera
• Usar habilidades SQL existente, sin intervención
de personal IT
Use cases where PolyBase
simplifies using Hadoop data
Bringing islands of Hadoop data together
Usuarios Finales
Data Scientist
Tecnologías de escalabilidad en SQL Data Warehouse
C1 C2 C3 C4 C5 C6
Query
Resultados
iento
MPP y In-Memory Columnstore para un
rendimiento de próxima generación
25x, 193x, de
mejora en la
ejecución de las
consultas (4 días
y 6 horas vs. 32
minutos)
Resultados de los Servicios de Negocios de la
Empresa antes y después
SMP vs. APS
1.4 TB/hr tiempo
de carga (7
billones de
registros) (1.21TB
en 53:20)
Azure Data
IoT, Dispositivos Power BI
Factory Azure Blob Storage
móviles, etc.
Azure Machine
Event Hubs HDInsight Web
Learning
Web logs (Detección de dashboards
Azure SQL DB Fraude, etc.)
1. Acelerador de Migración
2. Importar/Exportar
3. ExpressRoute/Herramientas de Carga
Opciones de Carga de Datos
• Gran ecosistema de potentes herramientas
ETL
• Cargar directamente de una variedad de
fuentes de orígenes
• Cargas de forma transparente paralelizados
• Estabilidad y consistencia garantizada
Ecosistema de socios muy bien extensible de
SQL Server
Power BI
los socios de Data Warehouse, incluyendo Analytics
Performance
alguno
• Pagar por el rendimiento
mediante la ampliación de
cómputo contra el
almacenamiento 100GB 1TB 2TB 1+PB
Beneficios
Diferencias de SQL DW y Amazon Redshift?
Amazon Redshift Azure SQL DW
Simplicidad
Elasticidad
Pausa/
Reanudar
Híbrido
Compatibilidad
Analítica Avanzada definida
Ejemplo de Análisis
Descriptivo: ¿Cuántos de nuestros
clientes persisten en el último
mes? ¿Cuántos de estos clientes
son rentable?
Restauración desde
las copias de
seguridad
Copia de seguridad automática y Geo-Restore
Recuperarse de eliminación de datos o la alteración o desastre
Copias de seguridad automática cada
4 horas, en el Azure Storage
("Recuperación de desastres") y Geo-
Replicado ("alta disponibilidad")
Copias de seguridad On-Demand en
Azure Storage donde el usuario final
puede habilitar la Geo-Replicación
REST API, PowerShell o El Portal de
Azure
Exportaciones programadas para la
retención a largo plazo
Copia de seguridad automática y Geo-Restore
Recuperarse de eliminación de datos o la alteración o desastre
Copia de Seguridad y Restauración en
línea basado en copias instantáneas de
almacenamiento
Política de retención de Copias de
Seguridad:
• Copia de Seguridad automáticas
hasta 35 días
• Copias de seguridad bajo demanda
retenidas indefinidamente
Resumen
Menos mantenimiento y monitoreo del DBA
• No hay creación de índice
• No hay datos eliminados o archivados
para ahorrar espacio
• Simplicidad de gestión (System Center,
Consola de Administración, DMVs)
• Sin bloqueo
• Sin registros de transacciones
• Sin sugerencias de consulta
• Sin estados de espera
• Sin tuning de IO
Menos mantenimiento y monitoreo del DBA
• No hay optimización de consulta /
Tuning
• No hay índice para reorganizarlos /
reconstruirlos
• No particiones
• No hay grupos de archivos que
gestionan
• No hay bases de datos para
contraer o expandir
• No hay gestión de servidores físicos
• No hay servidores y software de
parchado
SQL DW Service
SQL Server
Parallel Data
Warehouse
PolyBase
Microsoft
HDInsight
(Hadoop)
Restricciones y
Almacenar datos en APS que la política
políticas de las de la empresa prohíbe estar en la nube
Empresas
Lo que esta por venir…
www.facebook.com/cloudfirstcampus