Introduccinamicrosoftazuresqldatawarehouse 150821004342 Lva1 App6892

Introducción a
Microsoft Azure
SQL Data Warehouse
José Redondo
Microsoft SQL Server MVP | CEO EntornoDB | DPA SolidQ
redondoj@gmail.com | @redondoj | redondoj.wordpress.com
Expositor
• CEO de EntornoDB, USA
• Arquitecto de Datos – Especialista en Inteligencia de Negocio, Análisis de Datos y Big Data
• Desarrollador de aplicaciones de Escritorio, Web y Bases de Datos en .NET y Java
• Desarrollador y DBA en plataformas de datos Microsoft, SyBase, IBM y Oracle
• Conferencista en eventos tecnológicos de Microsoft y PASS en Latinoamérica y Estados Unidos
• SQL Server MCP - MSTS – MTA
• DPA SolidQ
• Contributing Technical Reviewer Packt Publishing
• Microsoft SQL Server MVP
Introducción a Microsoft Azure
SQL Data Warehouse
Agenda
• Análisis: La Tradicional "Bodega de datos" y La Moderna "Bodega de datos"
• Arquitectura: Microsoft APS (Analytics Platform System)
• Hadoop & PolyBase
• Performance y Escalabilidad
• Beneficios
• Resumen
• Preguntas y Respuestas
Análisis:
La Tradicional "Bodega de datos“ y
La Moderna "Bodega de datos"
Microsoft & Bodega de Datos
2008 2010 2011
Microsoft Adquiere Lanzamiento de Parallel

Data Allegro Fast Track Data Warehouse
Data Warehouse v1
Empresas han consultado la Arquitectura de referencia DW Data Allegro en Windows y SQL.

forma mas eficiente de llevar basadas en las mejores Primera aplicación de DW por
MPP (Massively Parallel prácticas SMP DW (Symmetric MSFT en colaboración con Dell
Processing) al entorno de SQL Multi-Processing Data y HP
Server Warehousing) ofrecidas con los
principales socios de H/W
Microsoft & Bodega de Datos
2013 2014 2015
Parallel Analytics Platform Azure SQL

Data Warehouse System Data Warehouse
v2 (APS) Service
Producto rediseñado ofreciendo Introducción de Hadoop a la Introducción del servicio de

nuevos factores de forma y una región dentro de la aplicación y Azure SQL Data Warehouse
mejor relación nuevo nombramiento para basado en las capacidades MPP
Precio/Rendimiento. reflejar las más amplias (Massively Parallel Processing)
capacidades de Big Data de APS (Analytics Platform
System)
APS y SQL DW: Estrategia Hibrida
APS (On-Premises)
APS y SQL DW: Estrategia Hibrida
La Tradicional Bodega de Datos
Orígenes de Datos
1 Incrementando el
volumen de datos
Datos No Relacionales
Nuevos orígenes
2
y tipos de datos
La tradicional Bodega de Datos
Datos originados
3
desde la nube
La tradicional Bodega de Datos
Consumidores
4
de datos
El Moderno Almacén de Datos
Orígenes de Datos Datos No Relacionales

Paralelismo
SMP - • Múltiples CPU's solía completar distintos procesos simultáneamente

• Todas las CPU comparten la misma memoria, los discos y los controladores de
Multiprocesamiento red (Scale-Up)
• Todas las implementaciones de SQL Server hasta ahora han sido SMP
Simétrico • Sobre todo, la solución se encuentra en un SAN compartido
MPP - • Utiliza muchos CPU's separados en paralelo para ejecutar un solo programa
Procesamiento en • Nada Compartido: Cada CPU tiene su propia memoria y disco (Scale-Out)
• Los Segmentos se comunican a través de la red de alta velocidad entre
Paralelo Masivo
Nodos
Arquitectura:
Microsoft APS
(Analytics Platform System)
Arquitectura lógica
Nodo “Control” – La “Razón de Ser”
de SQL Data Warehouse
• También funciona con Azure SQL
DMS
Server DB
Nodo “Control”
• Mantiene una copia del "Interprete
SQL de comando o Shell" de cada base
de datos
• Metadatos, Estadísticas, etc.
• El "Rostro Público" de la Aplicación
Arquitectura lógica DMS
Almacenamiento
Nodo “Compute”
SQL
Balanceado
Nodo de Computo - La "Abeja

Obrera" de SQL Data Warehouse DMS
Almacenamiento
Nodo “Compute”
• Ejecuta Azure SQL Server DB SQL
Balanceado
• Contiene una “Parte o Slice" de

cada base de datos DMS
Almacenamiento
Nodo “Compute”
Balanceado
• CPU está saturado por el SQL
almacenamiento
DMS
Almacenamiento
Nodo “Compute”
SQL
Balanceado
DMS
Almacenamiento
Nodo “Compute”
Balanceado Data Movement Services (DMS)
SQL
• Parte del "Condimento secreto" de

DMS
Almacenamiento
SQL Data Warehouse
Nodo “Compute”
SQL
Balanceado • Mueve los datos alrededor de su
contexto según sea necesario
• Permite operaciones paralelas entre
DMS
Almacenamiento
Nodo “Compute”
SQL
Balanceado
los nodos de cómputo (Consultas,
cargas, etc.)
DMS
Almacenamiento
Nodo “Compute”
SQL
Balanceado
DMS
Almacenamiento
Nodo “Compute”
Balanceado
SQL
DMS
Almacenamiento
Nodo “Compute”
Balanceado
SQL
DMS
Nodo “Control”
DMS
SQL
Almacenamiento
Nodo “Compute”
Balanceado
SQL
DMS
Almacenamiento
Nodo “Compute”
Balanceado
SQL
Opciones de la capa de datos DMS
T P
Almacenamiento
Nodo “Compute”
D D
Time Dim Product Dim
Balanceado
S C
D D
Date Dim ID Prod Dim ID SQL
Calendar Year Prod Category
Esquema Estrella Calendar Qtr Prod Sub Cat
Calendar Mo Prod Desc
Calendar Day
DMS
Nodo “Compute”
T
D
P
D Almacenamiento
SQL
S
D
C
D Balanceado
Sales Fact
Store Dim
Date Dim ID
Sales Fact
Store Dim ID Store Dim ID
Store Name DMS
Prod Dim ID
Store Mgr
Cust Dim ID Nodo “Compute”
T
D
P
D Almacenamiento
Store Size
Qty Sold S
D
C
D Balanceado
Dollars Sold Customer Dim SQL
Cust Dim ID
Cust Name
Cust Addr
Cust Phone
Cust Email
Replicado
DMS
T P
Almacenamiento
Nodo “Compute”
D D
Tabla copiada a cada "Nodo Compute" S

D
C
D Balanceado
SQL
Distribuido
Publicación de la Tabla a través de los nodos de cómputo basado en el "Hash"

Distribución de los datos Nodo Control
La metadata del Create
Table en el Nodo Control
CREATE TABLE FactSales
( Envia Create Table SQL a cada “Nodo Compute”
ProductKey INT NOT NULL , Create Table FactSales_A
OrderDateKey INT NOT NULL , Create Table FactSales_B
Create Table FactSales_C
DueDateKey INT NOT NULL ,
……
ShipDateKey INT NOT NULL , Create Table FactSales_H
ResellerKey INT NOT NULL ,
EmployeeKey
PromotionKey
INT NOT NULL
INT NOT NULL
,
,
Nodo Compute 1 Nodo Compute 2
… Nodo Compute X
CurrencyKey INT NOT NULL , FactSales_

FactSales_
FactSales_
FactSales_
FactSales_
FactSalesA
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSalesA
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSalesA
A AA AA A AA AA A AA AA
SalesTerritoryKey INT NOT NULL ,
SalesOrderNumber VARCHAR(20) NOT NULL, FactSales_
FactSales_
FactSales_
FactSales_
FactSales_ FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSalesB FactSalesB FactSalesB
B BB B B B BB B B B BB B B
) WITH
( FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSalesC FactSalesC FactSalesC
C CC CC C CC CC C CC CC
DISTRIBUTION = HASH(ProductKey), FactSales_

FactSales_
FactSales_
FactSales_
FactSales_
FactSalesD
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSalesD
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSalesD
DDDDD DDDDD DDDDD
CLUSTERED INDEX(OrderDateKey) , FactSales_

FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSalesE FactSalesE FactSalesE
E EE E E E EE E E E EE E E
PARTITION FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSalesF
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSalesF
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSalesF
(OrderDateKey RANGE RIGHT FOR VALUES F FF F F F FF F F F FF F F
( 19950601, FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSalesG FactSalesG FactSalesG
19950901, GGGGG GGGGG GGGGG
) ) ); FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSales_
FactSalesH FactSalesH FactSalesH
HHHHH HHHHH HHHHH
APS
Balanceo equilibrado
de carga entre
servidores
Tablas mas grandes 600,000,000,000
Distribuidos aleatoriamente entre 40 nodos de cómputo (5 racks) 15,000,000,000

En cada servidor aleatoriamente distribuido en 8 tablas (Por consiguiente
1,875,000,000
hasta 320 tablas en total)
Cada partición = 2 años de datos particionados por semana (Beneficiando
18,028,846
todas las consultas por fecha)
APS
Balanceo equilibrado de carga entre servidores
Como un usuario final o un DBA que piensa en 1 tabla.
Ejemplo: LineItem.
“SELECT * FROM LineItem” está dividido en 320

consultas en paralelo contra 320 (1.875 billones de
registros) tablas.
“SELECT * FROM LineItem WHERE OrderDate =

‘1/1/2012’" son 320 consultas en 320 (18 millones de
registros) tablas.
Es totalmente irrelevante el saber que en realidad existan

320 tablas que representan 1 tabla lógica.
CCI (Clustered Columnstore Index) puede agregar mayor

rendimiento mediante la eliminación del segmento.
Introduciendo el Servicio Azure SQL DW
Un almacén de datos relacionales "as-a-service",
totalmente gestionado por Microsoft.
La primera empresa con servicios flexible de
almacenamiento de datos en la nube con
capacidades de nivel empresarial.
Soporte a su más pequeñas necesidades de
almacenamiento de datos más grandes durante la
gestión de consultas hasta 100 veces más rápido.
Introduciendo el Servicio Azure SQL DW
Desplegar rápidamente y obtener una visión
Ship Disks
Azure Storage Todos los Tipos de
HDInsight Datos Analíticos con
Herramientas Power BI + ML
de migración
Flexibilidad en tiempo real
• Produzca alternativas de grandes cargas
de trabajo, generando períodos bajos de
actividad diaria.
• Obtenga tiempo de visualizar
requerimientos basado en lo que usted
necesita, cuando usted lo necesita.
• Elija el combo de cálculo y
almacenamiento de información que
satisfaga sus necesidades.
Flexibilidad en tiempo real
Cuando está en Pausa, Pague sólo por
Almacenamiento
Utilícelo sólo cuando lo necesite, sin recargar o
restaurar datos
Ahorre costos con paradas dinámicas y reinicios inmediatos

• Cuando está en pausa, el almacenamiento en la nube a
gran escala es de costo mínimo.
• Basado en políticas (Es decir, noches y fines de semana)
• Automatice mediante PowerShell & REST API
• Los datos permanecen en su lugar
SQL DW:
Desarrollado sobre SQL DB Foundation
Flexible
SQL DW Escalabilidad a Petabytes
Optimizado para DW
99.99% de tiempo de actividad SLA*

Geo-Restauración
Cumplimiento de normas en Azure

(ISO, HIPAA, EU, etc.)
SQL DB
Niveles de servicio Verdadera Experiencia SQL Server
Magnificas herramientas de trabajo
* Service Level Agreement - Acuerdo de nivel de servicio

Unidad de Almacenamiento de Datos (DWU)
Basta con adquirir el rendimiento que se necesitan en las consultas, no solo de

Medidas de Poder
hardware
Cuantificados mediante objetivos de volumen de trabajo: cómo rápidamente las

Transparencia
filas de registros son escaneadas, cargadas, copiadas, etc.
Primer servicio de DW para ofrecer potencia de cálculo bajo demanda,

Bajo Demanda
independientemente de almacenamiento a requerir.
Unidad de Almacenamiento de Datos (DWU)
Velocidad de Lectura 3.36M reg/seg

* Tasa de Carga 130K reg/seg
Table Copy Rate 350K reg/seg
100 DWU = 297 seg

400 DWU = 74 seg
800 DWU = 37 seg
1,600 DWU = 19 seg
*
Hadoop & PolyBase
Qué es Hadoop?
Hadoop Cluster
OPERATIONAL DATA compute
SERVICES SERVICES
&
storage . . . .
AMBARI . . . . .
FLUME
HIVE & compute
OOZIE PIG HCATALOG . . . . &
storage
SQOOP
FALCON HBASE
LOAD &
34 Hadoop Clusters proporcionan
EXTRACT MAP almacenamiento de
REDUCE escalabilidad horizontal y
NFS
YARN procesamiento de datos
Core Services distribuido en el hardware en
WebHDFS HDFS
cada uno de los servicios
básicos
Qué es Hadoop?
 Distribuido, Sistema Escalable en

componentes de Hardware
 Compuesto de unas pocas partes:
 HDFS – Sistema Distribuido de
Archivos
 MapReduce – Modelo de
Programación
 Otras herramientas: Hive, Pig, SQOOP,
HCatalog, HBase, Flume, Mahout,
YARN, Tez, Spark, Stinger, Oozie,
ZooKeeper, Flume, Storm
Qué es Hadoop?
 Los principales actores son

Hortonworks, Cloudera, MapR
 ADVERTENCIA: Hadoop es ideal
para el procesamiento de grandes
volúmenes de datos PERO es
insuficiente para el análisis de los
datos en tiempo real (Las
empresas hacen análisis de lotes
en su lugar)
Consulta de datos no estructurados mediante
Polybase/T-SQL
Instancia SQL DW
Hadoop VMs /
PolyBase Azure Storage
Escalabilidad de computo
Consulta de datos no estructurados mediante
Polybase/T-SQL
Polybase para consultar y administrar datos no relacionales de Hadoop y datos relacionales
• Permite capacidades de consultar a través
de distribuciones de Hadoop comunes
(HDP y Cloudera) y formatos de archivo de
Hadoop en Azure Storage.
• Permite el aprovechamiento de las
habilidades de SQL existentes y
herramientas de BI
• Soporta múltiples formatos de archivo no
relacionales
• Mejora el ciclo de conocimiento y
conceptualización de ideas y generación
de ETL simplificado
Consultar datos Hadoop con T-SQL
utilizando PolyBase
Otros (SQL Server, DB2,
Reunir a todos los paradigmas de Oracle)?
almacenamiento o Big Data y a los Verdaderos motores de Select… Result set
repositorios de datos en conjunto para consultas federadas
los usuarios finales e IT Windows Azure Storage-Blob
(WASB)
SQL DW
Windows Azure
HDInsight (HDP 2.1)
(HDFS)
PolyBase
Cloudera CHD Linux 4.6
Hortonworks HDP 2.1
(Windows, Linux)
SQL DW
Consultar datos Hadoop con T-SQL utilizando
PolyBase
Reunir a todos los paradigmas de almacenamiento o Big Data y a los repositorios de datos
en conjunto para los usuarios finales e IT
• Proporciona un modelo único de consulta T-SQL
("Capa semántica") para APS y Hadoop con ricas
características de T-SQL, incluyendo uniones sin
ETL
• Utiliza el poder del MPP para mejorar el
rendimiento de ejecución de consultas
• Compatible con Windows Azure HDInsight para
habilitar nuevos escenarios de nube híbrida
• Proporciona la capacidad de consulta de las
distribuciones de Hadoop no Microsoft, como
Hortonworks y Cloudera
• Usar habilidades SQL existente, sin intervención
de personal IT
Use cases where PolyBase
simplifies using Hadoop data
Bringing islands of Hadoop data together
High performance queries against Hadoop data

(Predicate pushdown)
Archiving data warehouse data to Hadoop (move)

(Hadoop as cold storage)
Los casos de uso donde
PolyBase simplifica los datos
utilizando Hadoop
Recopilar todos los escollos de datos Hadoop
Exportación datos relacionales a Hadoop (Copia)

(Hadoop como Copia de seguridad,
Análisis, Uso On-Premise)
Importación de datos Hadoop dentro del data warehouse
(Copia)
(Hadoop como área Staging, Sandbox,
Data Lake)
Comprendiendo Big Data para cualquier
persona
Integración nativa de Microsoft BI para crear nuevos competencias con herramientas
conocidas
Aprovecha alta Herramientas

adopción de como Power BI
Excel, Power reduce al mínimo
View, Power Pivot la intervención
y SSSA para descubrir
datos
Herramientas T-SQL para DBA

Hadoop como y Usuarios para
Map-Reduce, unirse a datos
Hive y Pig para relacionales y
Data Scientists Hadoop
Comprendiendo Big Data para cualquier
persona
Integración nativa de Microsoft BI para crear nuevos competencias con herramientas
conocidas Todo el mundo utilizando
herramientas de Microsoft BI
Usuarios Finales
Data Scientist
Tecnologías de escalabilidad en SQL Data Warehouse
 Procesamiento Paralelo Masivo (MPP)

paraleliza las consultas (No basada en la
capacidad impulsada por velocidad)
 Múltiples nodos con CPU dedicada,
memoria, almacenamiento "No
compartido"
 Añade incrementalmente Hardware para
la escala casi lineal al multi-PB (No es
necesario eliminar los datos más
antiguos entre otros)
 Maneja escalablemente la complejidad
de las consultas y las concurrencia a las
mismas
Tecnologías de escalabilidad en SQL Data Warehouse
 No "Forklift" del almacén antes

de aumentar la capacidad
 Comenzar con unos almacenes
de tamaño de Terabyte
 Soporte mixto para la carga de
trabajo: Consulta mientras se
carga (250GB/hora por nodo).
No hay necesidad de activar una
ventana de mantenimiento
Performance y Escalabilidad
MPP y In-Memory Columnstore para un rendimiento de próxima generación
Representación del índice de Columnstore
C1 C2 C3 C4 C5 C6
Ejecución de consultas en paralelo
Query
Resultados
iento
MPP y In-Memory Columnstore para un
rendimiento de próxima generación
Consultas más rápidas Hasta compresión
de hasta 100x de mas de 15x

• Almacenar datos en formato de
columnas para la compresión masiva
• Cargar datos dentro o fuera de la
Columnstore agrupados actualizable vs. Tablas con indexación habitual memoria para un rendimiento de
próxima generación
• Actualizable y agrupado para carga
lenta en tiempo real
• No hay índices secundarios requeridos
Resultados de los Servicios de Negocios de la
Empresa antes y después
SMP vs. APS
54x
de mejora
cargando datos
(48 horas vs. 53
minutos)
25x, 193x, de
mejora en la
ejecución de las
consultas (4 días
y 6 horas vs. 32
minutos)
SMP vs. APS
1.4 TB/hr tiempo
de carga (7
billones de
registros) (1.21TB
en 53:20)
Con las misma

herramientas de
trabaja de
Microsoft BI
conocidas
SMP vs. APS
9.4x
compresión (7
billones de
registros) (De
1.7TB a 179GB)
Las DWU serán

de doble
rendimiento
Visión y Arquitectura general del flujo de datos
Eventos & DW /
Presentación &
Producción de Capturar Transformación Almacenamiento a Análisis Predictivo
Toma de decisiones
datos Largo Plazo
Azure Data
IoT, Dispositivos Power BI
Factory Azure Blob Storage
móviles, etc.
Azure Machine
Event Hubs HDInsight Web
Learning
Web logs (Detección de dashboards
Azure SQL DB Fraude, etc.)
Social Data Dispositivos móviles

Stream Analytics
Azure SQL DW
Llevar fácilmente tu DW a la nube
• Migración transparente de una
variedad de orígenes On-Premise y
Cloud
• Carga rápida, coherente y estable para
la migración
• Herramientas de migración integradas
con soporte para todos las cargas de
trabajo
Llevar fácilmente tu DW a la nube
Enviar Hacer la Traslado con

grandes migración a conexiones
volúmenes Azure, simple y privadas,
de datos en completamente aceleradas a
medios administrado. Azure.
físicos.
Migración SQL Data Warehouse Services - Detalles
1. Acelerador de Migración
2. Importar/Exportar
3. ExpressRoute/Herramientas de Carga
Opciones de Carga de Datos
• Gran ecosistema de potentes herramientas
ETL
• Cargar directamente de una variedad de
fuentes de orígenes
• Cargas de forma transparente paralelizados
• Estabilidad y consistencia garantizada
Ecosistema de socios muy bien extensible de
SQL Server
+ Establecido con Azure ML, HDInsight,

PowerBI, ADF, y mas. Azure Event Hub
+ El Ecosistema más amplio de la industria de Azure Stream

Microsoft
Power BI
los socios de Data Warehouse, incluyendo Analytics
Tableau, Informatica, Attunity, y SAP. Azure

HDInsight Azure ML
Ecosistema de socios muy bien extensible de
SQL Server
Despliegue optimizado con el Portal de

Azure.
Azure SQL DW Integración profunda con las herramientas
de los principales socios incluyendo:
• Configuración con un solo clic
• Movimiento de datos optimizado
• Pushdown lógico
Líder en el mercado Precio/Rendimiento
• La mejor oferta del mercado
Precio/Rendimiento
• Ventajas en elasticidad y pausa
para reducir costos al cliente
• Iniciando con pequeño SQL
DW, pudiendo crecer a PB
rápidamente sin inconveniente
Performance
alguno
• Pagar por el rendimiento
mediante la ampliación de
cómputo contra el
almacenamiento 100GB 1TB 2TB 1+PB
Beneficios
Diferencias de SQL DW y Amazon Redshift?
Amazon Redshift Azure SQL DW
Simplicidad
Elasticidad
Pausa/
Reanudar
Híbrido
Compatibilidad
Analítica Avanzada definida
Ejemplo de Análisis
Descriptivo: ¿Cuántos de nuestros
clientes persisten en el último
mes? ¿Cuántos de estos clientes
son rentable?
Diagnostico: Por qué dejaron

estos clientes el ser rentables??
Predictivo: Cuántos clientes

rentables son propensos a dejar
el mes que viene?
Prescriptivo: Cómo podemos

reducir esta tasa de rotación de
clientes rentables?
Copia de seguridad automática y Geo-Restore
Recuperarse de eliminación de datos o la alteración o desastre
SQL Data Warehouse Azure Storage

Backups Geo-Replicado sabcp01bl21
sabcp01bl21
Restauración desde
las copias de
seguridad
Copias de seguridad automática cada
4 horas, en el Azure Storage
("Recuperación de desastres") y Geo-
Replicado ("alta disponibilidad")
Copias de seguridad On-Demand en
Azure Storage donde el usuario final
puede habilitar la Geo-Replicación
REST API, PowerShell o El Portal de
Azure
Exportaciones programadas para la
retención a largo plazo
Copia de Seguridad y Restauración en
línea basado en copias instantáneas de
almacenamiento
Política de retención de Copias de
Seguridad:
• Copia de Seguridad automáticas
hasta 35 días
• Copias de seguridad bajo demanda
retenidas indefinidamente
Resumen
Menos mantenimiento y monitoreo del DBA
• No hay creación de índice
• No hay datos eliminados o archivados
para ahorrar espacio
• Simplicidad de gestión (System Center,
Consola de Administración, DMVs)
• Sin bloqueo
• Sin registros de transacciones
• Sin sugerencias de consulta
• Sin estados de espera
• Sin tuning de IO
Menos mantenimiento y monitoreo del DBA
• No hay optimización de consulta /
Tuning
• No hay índice para reorganizarlos /
reconstruirlos
• No particiones
• No hay grupos de archivos que
gestionan
• No hay bases de datos para
contraer o expandir
• No hay gestión de servidores físicos
• No hay servidores y software de
parchado
RESULTADO: DBA invierten más de su

tiempo como arquitectos y no
perdedera de tiempo en tonterías!
Mejor juntos – SQL DW Azure Event Hub
con APS Azure HDInsight Azure ML
SQL DW Service
SQL Server
Parallel Data
Warehouse
PolyBase
Microsoft
HDInsight
(Hadoop)
Analytics Platform System

Mejor juntos – SQL DW con APS
Utilizar el servicio de SQL DW o APS
Recuperación como su solución de recuperación
de Desastres ante desastres con carga Dual
Pruebas / Poner a prueba nuevas ideas en el

Desarrollo o servicio de SQL DW antes de salir a
Producción producción en APS
Los Datos Históricos al Servicio de SQL

Datos DW pero manteniendo completo el
Históricos poder de MPP en ejecución
Restricciones y
Almacenar datos en APS que la política
políticas de las de la empresa prohíbe estar en la nube
Empresas
Lo que esta por venir…
Verano 2015 A finales 2015/ A comienzo

Preview Publica 2016
• Pausada y Reanudada Dinámica Acuerdo a esperar
• Integración con la Plataforma de Servicio de Azure • Certificado ISO, PCI
(CloudML, ADF, HDInsight, SQL-IP) • Clausula de Modelo HIPAA, BAA, &
• Integración con todo el ecosistema de los Partners de EU
SQL Server
• Geo-Restauración Acuerdo de Nivel de Servicio
• Servicio o Aplicación híbrida • 99.99% SLA
• PolyBase para la integración a Big Data
• T-SQL preparado para las empresas
• Primera ola de socio certificados en SQL
Demo
SQL Data Warehouse
Preguntas y Respuestas
Preguntas & Respuestas
Recursos
• SQL Data Warehouse PREVIEW -
http://bit.ly/1EFEkLz
• Partners for Azure SQL Data Warehouse -
http://bit.ly/1EkhcCp
• TechEd Europe - http://bit.ly/1EFEyT4
José Redondo
Microsoft SQL Server MVP | CEO EntornoDB | DPA SolidQ
redondoj@gmail.com | @redondoj | redondoj.wordpress.com
CloudFirst Campus
Latinoamérica
www.facebook.com/cloudfirstcampus

Introduccinamicrosoftazuresqldatawarehouse 150821004342 Lva1 App6892

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Introduccinamicrosoftazuresqldatawarehouse 150821004342 Lva1 App6892

Uploaded by

Copyright:

Available Formats

Introducción a

Microsoft Adquiere Lanzamiento de Parallel

Empresas han consultado la Arquitectura de referencia DW Data Allegro en Windows y SQL.

Parallel Analytics Platform Azure SQL

Producto rediseñado ofreciendo Introducción de Hadoop a la Introducción del servicio de

Orígenes de Datos Datos No Relacionales

SMP - • Múltiples CPU's solía completar distintos procesos simultáneamente

Nodo de Computo - La "Abeja

• Contiene una “Parte o Slice" de

• Parte del "Condimento secreto" de

Tabla copiada a cada "Nodo Compute" S

Publicación de la Tabla a través de los nodos de cómputo basado en el "Hash"

CurrencyKey INT NOT NULL , FactSales_

DISTRIBUTION = HASH(ProductKey), FactSales_

CLUSTERED INDEX(OrderDateKey) , FactSales_

Tablas mas grandes 600,000,000,000

Distribuidos aleatoriamente entre 40 nodos de cómputo (5 racks) 15,000,000,000

“SELECT * FROM LineItem” está dividido en 320

“SELECT * FROM LineItem WHERE OrderDate =

Es totalmente irrelevante el saber que en realidad existan

CCI (Clustered Columnstore Index) puede agregar mayor

Ahorre costos con paradas dinámicas y reinicios inmediatos

99.99% de tiempo de actividad SLA*

Cumplimiento de normas en Azure

* Service Level Agreement - Acuerdo de nivel de servicio

Basta con adquirir el rendimiento que se necesitan en las consultas, no solo de

Cuantificados mediante objetivos de volumen de trabajo: cómo rápidamente las

Primer servicio de DW para ofrecer potencia de cálculo bajo demanda,

Velocidad de Lectura 3.36M reg/seg

100 DWU = 297 seg

 Distribuido, Sistema Escalable en

 Los principales actores son

High performance queries against Hadoop data

Archiving data warehouse data to Hadoop (move)

Exportación datos relacionales a Hadoop (Copia)

Aprovecha alta Herramientas

Herramientas T-SQL para DBA

 Procesamiento Paralelo Masivo (MPP)

 No "Forklift" del almacén antes

Representación del índice de Columnstore

Ejecución de consultas en paralelo

Consultas más rápidas Hasta compresión

de hasta 100x de mas de 15x

Con las misma

Las DWU serán

Social Data Dispositivos móviles

Enviar Hacer la Traslado con

+ Establecido con Azure ML, HDInsight,

+ El Ecosistema más amplio de la industria de Azure Stream

Tableau, Informatica, Attunity, y SAP. Azure

Despliegue optimizado con el Portal de

Diagnostico: Por qué dejaron

Predictivo: Cuántos clientes

Prescriptivo: Cómo podemos

SQL Data Warehouse Azure Storage

RESULTADO: DBA invierten más de su

con APS Azure HDInsight Azure ML

Analytics Platform System

Pruebas / Poner a prueba nuevas ideas en el

Los Datos Históricos al Servicio de SQL

Verano 2015 A finales 2015/ A comienzo

You might also like