You are on page 1of 29

GUIA SOBRE ANLISE DE

DADOS E APRENDIZADO
D E M Q U I N A PA R A C I O
CONTEDO

Introduo 03

O novo cenrio para os dados 05

Armazenamento em nuvem e data warehousing 09

Integrao de dados em tempo real 16

Aprendizado de mquina e inteligncia artificial 21

Concluso 26

Referncias 27

Introduo | | 22
Contedo
INTRODUO

O uso de dados para tomar decises comerciais no novidade. Antes, tomar


decises baseadas em dados significava compreender a correlao entre uma
campanha de anncio impressa e os picos episdicos de vendas acima do normal.
As empresas usavam quaisquer dados que tivessem em mos, no momento em
queestivessem disponveis.

Hoje, os dados esto por toda parte. Eles so transmitidos a velocidades vertiginosas,
em diversos formatos, a partir de dispositivos de bilhes de usurios conectados.
Geralmente, usar o Big Data considerado uma oportunidade, mas apenas para
empresas que tenham estrutura para lidar com o volume e a diversidade dele. Para
as outras empresas, a avalanche de dados pode trazer o risco de que insights em
potencial permaneam inexplorados, necessidades de clientes no sejam atendidas
eempresas continuem tomando decises sem em+basamento.

Dois fatores diferenciam o cenrio atual dos avanos alcanados no passado.


Oprimeiro o aumento exponencial no volume e na diversidade de dados
gerados porbilhes de usurios e dispositivos. O segundo a demanda pelo
acesso imediato a dados e insights de alta qualidade. Cada um trouxe uma
nova necessidade imediata de determinar como as empresas gerenciam os dados.
Alm disso, o custo e o desempenho de muitos recursos de nuvem atingiram um
ponto crtico, ajudando a tornar o aprendizado de mquina (ML, na sigla em ingls)
e a inteligncia artificial (IA) acessveis a todas as empresas.

Apesar de o valor dos dados ser amplamente reconhecido, poucas empresas


implementaram estratgias de dados modernas.1 Com base em pesquisas inditas
e nas contribuies do prprio Google para a nuvem, este guia foi desenvolvido para
ajudar lderes empresariais e de TI a implementarem estratgias modernas com base
em nuvem para o gerenciamento de dados. Em cada seo, destacamos tecnologias
que auxiliam as empresas a transformar um cenrio amplo e complexo de dados em
insights comerciais teis.

Introduo | 3
I N T E R A E S P O R P E S S O A C O N E C TA D A P O R D I A

5.000
4.800
Nmero de interaes/pessoa/dia

3.000

1.000

601

218

2015 2020 2025

At 2025, uma pessoa comum conectada usar dispositivos conectados aproximadamente 4.800 vezes por dia, oequivalente a uma
interao a cada 18 segundos.2

NOSSAS RAZES

O Guia sobre anlise de dados e aprendizado de mquina do Google Cloud baseia-se nos 20 anos em que
o Google enfrentou alguns dos problemas mais complexos do setor relacionados a dados. Ao longo do
percurso, contribumos com pesquisas inditas que ajudaram a moldar ocenrio do Big Data: dos dois
artigos acadmicos do final de 2003 e 2004, que juntos geraram o movimento do Hadoop, ao artigo
sobre o Dremel, que constitui a base dos recursos de data warehouse na nuvem presentes neste guia.

Ns concebemos, desenvolvemos e implantamos o Spanner, o primeiro sistema que distribui dados em


escala global, oferece suporte a transaes distribudas externamente de maneira uniforme e que, em
2017, tornou-se totalmente disponvel para os nossos clientes.3 Recentemente, o Google Brain ajudou a
fomentar o interesse renovado do setor em IA, o que colaborou para o lanamento do nosso Projeto do
TensorFlow em cdigo aberto.4 Com este guia, esperamos compartilhar nossa experincia com lderes
que buscam formas de decifrar as possibilidades do aprendizado de mquina e da inteligncia artificial
para as organizaes deles.

Introduo | 4
CAPTULO 1

O N O V O C E N R I O PA R A O S D A D O S

01
O N O V O C E N R I O PA R A O S D A D O S 01

Seria mais fcil gerenciar os dados se o crescimento fosse limitado a poucas fontes ouse
os dados fossem uniformes. O desafio consiste na diversidade de fontes e formatos. Isso
inclui o volume crescente de dados no estruturados: e-mails, registros de sistema, pginas
da Web, transcries de clientes, documentos, apresentaes, bate-papos informais e um
extraordinrio volume de rich media, como imagens evdeos em alta definio. Volumes enormes
de informao tornam-se disponveis instantaneamente em qualquer dispositivo conectado
Internet, o que gera novas expectativas em torno da disponibilidade e da prontido dos dados.

Aplicativos de consumidores, como apps de pesquisa, mensagens de texto, comrcio eletrnico,


redes sociais e vdeos on-line, foram os primeiros a se deparar com esse problema. Novos
sistemas tiveram que ser desenvolvidos para lidar com o trfego naescala da Web e, ao mesmo
tempo, retornar insights instantaneamente. Hoje, essasinovaes esto disponveis e tornam-se
cada vez mais importantes para todas asempresas, abrangendo desde o auxlio a fabricantes
no gerenciamento mais eficienteda cadeia de fornecimento at o aumento da preciso de
diagnsticos clnicos.

As equipes de TI esto empacadas no meio do caminho. Elas precisam encontrar formas de


apresentar uma perspectiva do negcio em tempo real ao mesmo tempo em que gerenciam
umcenrio maior e mais complexo de dados. Como acontece com muitas solues
de software, a reduo da complexidade um fator determinante para o sucesso.

Este guia analisa como os servios gerenciados em nuvem ajudam empresas novas e j
estabelecidas a enfrentar os desafios do processamento de dados. Ele detalha um caminho que
comea com a captura de dados brutos da empresa no armazenamento em nuvem. Conforme
as questes empresariais forem surgindo, as ferramentas com base na nuvem podem preparar
eestruturar os dados brutos quando necessrio. Em seguida, os dados preparados so incorporados

01 O novo cenrio para os dados | 6


em um data warehouse na nuvem, onde ficam imediatamente disponveis para anlise. Esse conjunto
de dados funciona como a base operacional a partir da qual as organizaes podem capturar, preparar
e analisar dados de qualquer tipo, a partir de qualquer fonte. A natureza totalmente gerenciada dos
servios em nuvem ajuda a simplificar todo o processo, incluindo o suporte a anlise em tempo real, sem
a necessidade de a equipe de TI conhecer a infraestrutura subjacente. Com base nesses fundamentos,
oguia conclui mostrando como as organizaes podem usar a captura e preparao desse ciclo de
dados para possibilitar o aprendizado de mquina e a inteligncia artificial.

S E M S E R V I D O R : O C A M I N H O PA R A A P R O D U T I V I D A D E E M T I

As arquiteturas modernas sem servidor so o pice de uma srie de esforos para reduzir a extenso da
rea que os desenvolvedores e as equipes de TI precisam gerenciar. A meta da computao sem servidor
, essencialmente, eliminar a mercantilizao do trabalho (do gerenciamento de clusters de servidores,
fragmentao de bancos de dados, balanceamento de carga, planejamento de recursos, garantia de
disponibilidade) para que as equipes de TI possam se concentrar naquilo que mais importante para
onegcio. A funo sem servidor estabelece uma ntida distino entre a TI mercantilizada(o servio
cotidiano de manuteno que parece praticamente o mesmo em cada empresa) e o servio diferenciado
queeleva a TI para a posio de fornecedor direto de valor comercial.

CAPTULO 1 RESUMO

1 As empresas enfrentam trs novos desafios:

o volume de dados sendo criados;


a diversidade de formatos e fontes de dados;
a velocidade em que os consumidores e as partes interessadas internas esperam ter insights.

2 A computao em nuvem ajuda as empresas a enfrentar esses desafios ao permitir o gerenciamento


dedados em escala e velocidade sem ter que se preocupar com a infraestrutura.

3 Em especial, as empresas podem comear a modernizar as estratgias de dados delas ao se concentrar


no armazenamento em nuvem e em data warehousing como primeira etapa da criao de uma base para
oaprendizado de mquina e a inteligncia artificial.

01 O novo cenrio para os dados | 7


EMPRESA
CASO DO CLIENTE
FIS

FIS SETOR

Servios financeiros
A FIS faz anlises de eventos e inovaes do mercado com
servios de nuvem totalmente gerenciados
SOBRE

A FIS desenvolveu uma ferramenta de reconstruo do A FIS lder mundial em


mercado que ajuda a determinar a causa potencial de eventos tecnologia de servios
que desestabilizam o mercado financeiro, como o flash crash financeiros com enfoque em
de 2010. O sistema da FIS no s capaz de armazenar varejo e transaes bancrias,
bilhes de transaes, como tambm permite que os gerentes pagamentos, gesto de
de risco e compliance realizem superviso e consultas quando recursos e patrimnio, risco
necessrio, incluindo reconstruo do mercado. e compliance, consultoria
esolues terceirizadas.
De acordo com a FIS, o sistema pode processar e vincular at
15terabytes de dados diariamente em quatro horas earmazen-
los por seis anos, tal como a legislao exige. Isso representa
em torno de 30 petabytes de dados, disse Neil Palmer, diretor
da rea de Tecnologia Avanada da FIS. No h muitas coisas
disponveis pora nessa escala, e certamente no h nada
voltado para servios financeiros. uma tarefa colossal.

A equipe de Palmer precisava de uma plataforma com alto


poder computacional, mas tambm queria evitar ocusto
e a manuteno associados ao desenvolvimento e operao
de um sistema instalado localmente. A escalabilidade uma
vantagem enorme do Google Cloud Platform, afirmou Palmer.
Uma soluo tradicional de TI para hardware fixo neste cenrio
poderia resultar em milhes de dlares em equipamentos
ociosos durante vrios dias de negociao.

LEIA MAIS

01 Caso do cliente: FIS | 8


CAPTULO 2

ARMAZENAMENTO EM NUVEM
E D ATA W A R E H O U S I N G

02
A R M A Z E N A M E N T O E M N U V E M E D ATA W A R E H O U S I N G

A centralizao de dados brutos dos principais processos empresariais no armazenamento


em nuvem um dos primeiros passos a serem dados pelas organizaes em direo
modernizao. Ao fazer isso, elas se preparam para exploraros recursos de anlise em nuvem. 02

Os silos de dados distribudos por toda a empresa continuam a aborrecer tanto a equipe de
TI quanto a comercial, com novos silos (por razes tcnicas, corporativas ou ambas) criados
diariamente.5 A revista Harvard Business Review fez uma publicao sobre anecessidade
da fonte nica da verdade para dados, assim como as diversas lentes pelas quais diferentes
ramos de negcios podem analisar os dados.6

O armazenamento em nuvem e o data warehousing permitem s empresas fazer as duas


coisas (manter um nico repositrio central e possibilitar que diferentes funes empresariais
analisem dados de maneiras que atendam s necessidades especficas deles) com mais
rapidez e flexibilidade do que era possvel anteriormente. Juntos, esses recursos ajudam
a criar uma visualizao em 360 graus do negcio envolvendo os silos.

Capturar dados brutos para anlises futuras

A IDC estima que menos de 1% de todos os arquivos sejam analisados.7 Os outros 99%,
dependendo das necessidades do negcio no momento, contm informaes sobre
insightsvoltados tomada de deciso. Como as organizaes no conseguem prever
asquestes empresariais que podero surgir, elas precisam de maneiras simples, baratas
eflexveis de armazenar um grande volume de dados. Isso vale principalmente para dados
noestruturados, que constituem a maioria dos dados gerados.8

Com a nuvem, as empresas podem armazenar um volume enorme de arquivos a


baixo custo, a menos de um centavo por gigabyte no momento da gravao.9 Os
dados usados frequentemente podem ser armazenados como mornos (disponveis
em escala global para serem utilizados em aplicativos ou para executarem anlises),
enquanto os dados com valor ainda inexplorado permanecem no armazenamento frio,
que mais barato. O armazenamento on-line mais atraente permite at que os dados
arquivados a frio sejam rapidamente recuperados com latncia extremamente baixa.

02 Armazenamento em nuvem e data warehousing | 10


A IDC ESTIMA QUE MENOS DE 1% DE
TODOS OS DADOS SO ANALISADOS.7

<1%

Alm de gerar economia de custos, o armazenamento em nuvem funciona como a base de anlises robustas.
Asempresas podem capturar arquivos estruturados e no estruturados nos formatos originais com facilidade.
Como o armazenamento separado intencionalmente do processamento e da anlise, as equipes podem
postergar a estruturao dos dados brutos para anlise somente quando questes empresariais surgirem. O mais
importante de tudo que dados brutos que tenham a mesma origem podem ser facilmente reestruturados para
responder a novas questes de imediato. O que diferencia o armazenamento em nuvem a eficincia dessas
etapas de captura e reutilizao dos dados. Para preparar uma organizao para que ela se beneficie das anlises,
as equipes precisam garantir que os dados brutos dos processos empresariais sejam capturados e centralizados.

Essa flexibilidade est acelerando a adoo da nuvem como repositrio para dados no estruturados das
organizaes. Cerca de metade das organizaes nos EUA, Europa e sia-Pacfico antecipam saltos de pelo
menos 5% no armazenamento de dados no estruturados na nuvem no ano seguinte, sendo que muitas delas
informam um aumento superior a 10%.10

02 Armazenamento em nuvem e data warehousing | 11


A INTERNET DAS COISAS

De acordo com uma pesquisa com mais de 500 lderes mundiais em TI conduzida pela MIT Sloan Management Review
em nome do Google Cloud, a adeso nuvem permanece em crescimento, e a expectativa de que a maioria (65%) dos
aplicativos, dados e/ou infraestrutura seja baseada em nuvem at 2019.

A Internet das coisas um importante fator de crescimento dessa migrao para a nuvem, sendo que 91% dos
entrevistados com iniciativas de IoT esto atualmente implantando (59%) ou planejam implantar (32%) dados
de dispositivos conectados IoT na nuvem. Os entrevistados mencionaram a capacidade de incorporar novas
ferramentase plataformas (33%), maior velocidade da implantao e iterao de app (31%), maior flexibilidade nos
processos empresariais e nas escolhas de fornecedores (29%) e maior segurana (28%) como os principais motivos
para implantar dados da IoT na nuvem.

Para usar os dados da IoT de maneira eficiente, as empresas precisam compreend-los dentro do contexto.
Umdatawarehouse na nuvem que permite entradas de lote e dados de streaming, em conjunto com uma
plataformade anlise robusta, ajuda a assegurar que seus dados de IoT gerem insights em tempo real.

Gerenciamento de dados nos silos

Ao capturar dados de qualquer tipo de maneira econmica, as organizaes podem voltar a ateno
para possibilitar uma perspectiva organizada dos processos empresariais mais importantes. Embora
o armazenamento em nuvem centralize dados no formato bruto nativo, um data warehouse na
nuvem permite que empresas renam dados de silos diferentes para anlise, assim como um data
warehouse tradicional faria. Com a nuvem, as empresas podem gerenciar um grande volume de dados
com investimento mnimo de capital, escala praticamente ilimitada e pagamento por utilizao. Os
servios gerenciados em nuvem vo mais alm, aliviando as preocupaes de TI sobre a infraestrutura
subjacente. As empresas precisam definir quais questes empresariais devem ser respondidas e quais
so os dados necessrios para respond-las.

Por exemplo:

Quais so as principais metas empresariais dos meus dados? Entender como os usurios
interagem com os meus sistemas, identificar tendncias, aumentar as vendas, construir
afidelidadedo consumidor ou algo diferente?

Qual ser a origem dos meus dados mais importantes (transaes, registros de servidores,
servios em nuvem, dispositivos/Internet das coisas, mdia social)? Eles j foram importados
para o armazenamento em nuvem?

Com que velocidade o meu sistema precisa incorporar novos dados em relatrios e visualizaes?

Existe uma cultura que incentive a tomada de deciso baseada em dados em toda a
organizao(no apenas entre os analistas de TI e os cientistas de dados)? Quem deveria
teracesso plataforma de anlise?

02 Armazenamento em nuvem e data warehousing | 12


Assim que as metas empresariais forem definidas, as empresas precisam identificar as origens dos
dados de entrada entre os silos a serem importados para um data warehouse na nuvem para anlise.
Veja abaixo uma lista das origens de entrada mais usadas:

Armazenamento em nuvem
Os dados do armazenamento em nuvem podem ser importados para um data warehouse na
nuvem para anlise.12 Nessa etapa, possvel formalizar um esquema com base nas questes
empresariais que precisam de resposta, propiciando a estruturao dos dados brutos para anlise.

Bancos de dados transacionais e de anlise


Os dados armazenados em bancos de dados transacionais e de anlise podem ser carregados
emlote ou transmitidos linha por linha para um data warehouse na nuvem.

Dados armazenados nos servios em nuvem


Os dados armazenados em outros provedores de SaaS podem ser importados para um
datawarehouse na nuvem. Em muitos casos, isso feito de maneira automtica.

Dados de streaming
Dados de aplicativos da Web, de dispositivos mveis e da Internet das coisas (IoT, na sigla
emingls) podem ignorar o armazenamento em nuvem e serem transmitidos diretamente
para um data warehouse na nuvem (veja no captulo 3: Integrao de dados em tempo real).

Administrao de dados

O crescimento exponencial do volume global de dados no o nico obstculo enfrentado


pelas empresas. De acordo com Forrester, os requisitos de anlise e gerao de relatrios em
constante mudana, alm da falta de alinhamento entre o negcio e a TI, esto entre os principais
desafios queprejudicam os esforos de inteligncia de negcio das empresas.13 Alm disso, a falta
comprovada detalentos em cincia de dados (veja A asceno dos cientistas de dados amadores)
levaasempresas a pensar em novas formas de desenvolver conhecimentos analticos.

Com o acesso baseado em funes, qualquer pessoa ou desenvolvedor de aplicativos pode consultar
dados armazenados em um data warehouse na nuvem, gerar relatrios ou acessar visualizaes.
O data warehousing na nuvem aceita o gerenciamento de acesso individualizado voltado para
oque a pessoa precisa saber. A auditabilidade total e o controle do acesso personalizadoajudam
a democratizar a cincia de dados, ao mesmo tempo em que mantm salvaguardas de segurana.
De fato, mais da metade das empresas nos EUA, Europa e sia-Pacfico relatam que esto
implementando, j implementaram ou esto expandindo o uso de ferramentas de inteligncia
empresarial operadas pela prpria empresa e utilizadas nela.14

02 Armazenamento em nuvem e data warehousing | 13


A A S C E N S O D O S C I E N T I S TA S D E D A D O S A M A D O R E S

Antes, a responsabilidade por concluses estatisticamente precisas com base em dados era exclusiva aos
cientistas de dados profissionais. Porm, em 2018, de acordo com a McKinsey, Os EUA podero enfrentar
uma escassez de 140.000 a 190.000 pessoas com conhecimento aprofundado em anlise de dados, assim
como 1,5 milho de gerentes e analistas com o conhecimento para usar as anlises de Big Data para tomar
decises efetivas.15

Com a intensificao da competio, a maioria das empresas precisar de uma estratgia diferente
voltada para os talentos. Os cientistas de dados amadores que, conforme definio do InformationWeek,
so pessoas que fazem anlises de dados, mas cujas principais atribuies no esto relacionadas
estatstica ou anlise, podem ser um complemento significativo para cientistas de dados internos,
principalmente para empresas que investem no desenvolvimento da cultura da cincia de dados.16

Para ter sucesso, quem pretende se tornar cientista de dados amador precisa:

ter acesso a dados;


ser curioso;
ter facilidade com SQL;
ter conhecimento de domnios;
praticar a colaborao.

CAPTULO 2 RESUMO

1 O armazenamento em nuvem permite que as organizaes capturem dados estruturados e no


estruturados de qualquer tipo no formato nativo. A centralizao dos dados no armazenamento
emnuvem cria uma base de dados, cuja anlise pode ser adiada at que as organizaes tenham
questes empresariais concretas.

2 Um data warehouse na nuvem permite que as organizaes renam dados de silos distintos para
anlise, abrangendo desde armazenamento em nuvem, bancos de dados transacionais e analticos
no local ou na nuvem ou dados armazenados com outros servios em nuvem. As organizaes podem
executar consultas, gerar relatrios e criar visualizaes sem gerenciar a infraestrutura subjacente.

3 O acesso baseado em papis democratiza a anlise em toda a organizao. Um data warehouse na


nuvem pode ser voltado para a empresa toda ou organizado de acordo com a estrutura da organizao.

02 Armazenamento em nuvem e data warehousing | 14


EMPRESA
CASO DO CLIENTE
Centro Colorado de
Medicina Personalizada

CENTRO COLORADO DE
SETOR
MEDICINAPERSONALIZADA
Assistncia mdica
O Centro Colorado de Medicina Personalizada (CCPM) est conduzindo
uma pesquisa de ponta por meio da anlise do DNA de pacientes para prever
SOBRE
o risco de doenas e desenvolver tratamentos direcionados com base na
gentica do indivduo. O CCPM depende do Health Data Compass, o data O Centro Colorado de Medicina
Personalizada (CCPM, na sigla
warehouse de empresas na rea da sade do CCPM. O Health Data Compass
em ingls) uma parceria entre
integra os dados genmicos dos pacientes do CCPM e registros eletrnicos
a University of Colorado Denver,
de sade da UCHealth, do Childrens Hospital Colorado e do CU Medicine,
a UCHealth, o Childrens Hospital
incluindo registros externos como reivindicaes de seguros, registros
Colorado e o CU Medicine e
de sade pblica e dados ambientais.
situa-se em Denver, na regio
doColorado.
Antes, o Health Data Compass usava um sistema tradicional no local para
armazenar e analisar dados. Mas essa abordagem revelou-se onerosa de
ser mantida, no atendia s necessidades de anlise existentes do centro
e no atingia o crescimento previsto. Aps um projeto piloto abrangente
de seis meses, o Health Data Compass migrou para o GCP e o Tableau,
que juntos so capazes de processar imensos conjuntos de dados e fazer
anlises robustas de dados visuais, alm de serem mais baratos e facilitarem
a escalonabilidade de acordo com o crescimento do CCPM. A capacidade
de o GCP, incluindo BigQuery (o data warehouse do Google Cloud) de aceitar
a compliance com a HIPAA de acordo com os requisitos do CCPM foi um
fator importante para essa deciso.

Ns levamos a srio nossa responsabilidade de proteger os dados dos


pacientes. O Google Cloud Platform fornece vantagens significativas na
segurana de dados de sistemas locais e nos ajuda a manter a compliance
com a HIPAA, afirmou Michael Ames, diretor associado do Health Data
Compass e diretor de arquitetura empresarial do CCPM.17

LEIA MAIS

02 Caso do cliente: Centro Colorado de Medicina Personalizada | 15


CAPTULO 3

INTEGRAO DE DADOS
EMTEMPO REAL

03
INTEGRAO DE DADOS EM TEMPO REAL 03

Os cientistas de dados relatam que passam de 50 a 80% do tempo


atolados nas etapas de tratamento, limpeza e manipulao de dados
necessrias para preparar os dados para anlise.18 A necessidade de
provisionar recursos e aumentar ou reduzir clusters de servidores de
acordo com cargas de trabalho imprevisveis continua a atormentar
equipes que fazem a preparao de dados no local.19

Menos trabalho de limpeza com servios gerenciados

Os servios totalmente gerenciados em nuvem ajudam a distanciar


a TI dos trabalhos de infraestrutura voltados para a preparao MAIS DE

90%
e integrao de dados em larga escala. Imagine um termostato
inteligenteque procura aprender e se ajustar s preferncias
de diferentes equipes em um edifcio comercial. Enquanto o
termostato estem uso, a nuvem consome dados de uso brutos,
como as configuraes de temperatura e os nveis de consumo de
energia aolongo do dia. Conforme os dados chegam, um canal de
das empresas
processamento pode ser ativado, quando necessrio, na preparao
TM INTERESSE EM
dos dados brutos. Assim, possvel garantir que as entradas estejam
I M P L A N T A R A P R E PA R A O D E
em um intervalo vlido, converter a temperatura e a energia usadas D A D O S D E A U T O AT E N D I M E N T O
nas unidades pretendidas e formatar os dados temporais. O canal de P A R A A P O I A R I N I C I A T I VA S
dados os estrutura formalmente e, em seguida, carrega os resultados R E L A C I O N A D A S A O B I G D ATA . 20

transformados em um data warehouse na nuvem. Consultas,


visualizaes e relatrios ficam instantaneamente disponveis.

03 Integrao de dados em tempo real | 17


Com os servios totalmente gerenciados em nuvem, os recursos de infraestrutura necessrios para aceitar esse
fluxo de trabalho so automaticamente alocados e, em seguida, desativados novamente. As empresas pagam
apenas pelos recursos que utilizam, o que ajuda a eliminar o desperdcio e a adivinhao durante a previso.

Em direo anlise de dados em tempo real

Enquanto os sistemas tradicionais concentram-se na anlise de dados off-line em lotes, a demanda por insights
em tempo real pede uma nova abordagem. Os sistemas de anlise de streaming com base em nuvem so
desenvolvidos para processar o fluxo de dados de aplicativos da Web, smartphones ou milhes de sensores da
IoT em tempo real. Centenas de milhares de sensores podem ser instalados em equipamentos de campo para
informar continuamente o status bruto nuvem para processamento e monitoramento. Feeds de recursos visuais
podem ser analisados em tempo real para aplicativos como de deteco de anomalias e reconhecimento facial/de
objetos. Os servios em nuvem amplamente testados e implantados podem ser aproveitados para casos de uso
como esses. Assim, a anlise de dados de streaming pode ser implementada em questo de dias.

Com a anlise de dados de streaming em tempo real, os dados vo diretamente para canais
de processamento. Os dados transformados podem ser integrados em um data warehouse
na nuvem, possibilitando consultas, visualizaes e gerao de relatrios em segundos.
Desta forma, o canal de processamento funciona como um tipo de middleware que pode ser
ativado quando necessrio, capaz de reunir o streaming de dados em tempo real com dados
em lote retirados do armazenamento. Os dados podem ser estruturados com flexibilidade
para responder s questes empresariais de uma organizao conforme elas surjam.

Desta forma, as organizaes tm dois caminhos complementares, de lote e de streaming, por


meio dos quais podem capturar, preparar e integrar dados de qualquer origem para qualquer destino.
Os servios gerenciados em nuvem possibilitam que ambos sejam usados com facilidade.

C O M O A P R O V E I TA R A O M X I M O S E U S I N V E S T I M E N T O S N O B I G D ATA

Muitas empresas inovadoras j usam o Big Data, geralmente com base em ferramentas de cdigo aberto como a
Apache Hadoop (em ingls) e a Apache Spark (em ingls). Para esses negcios, possvel proteger os investimentos
existentes em talentos e ferramentas e, ao mesmo tempo, aproveitar as vantagens da produtividade da nuvem.

As ferramentas de cdigo aberto para Big Data esto amplamente disseminadas e continuam crescendo.
Mundialmente, muitas empresas esto armazenando um volume cada vez maior de dados no estruturados em
sistemas de arquivo de nuvem pblica, inclusive no Hadoop. Mais de um tero dos entrevistados nos EUA e na
Europae mais do que a metade na regio sia-Pacfico relatam que esto implementando, j implementaram
ou esto expandindo a implementao do Hadoop, incluindo HBASE, Accumulo, MapR, Cloudera e Hortonworks.
Domesmo modo, cerca de um tero dos entrevistados nos EUA e na Europa e impressionantes 60% na regio
sia-Pacfico esto implementando, j implementaram ou esto expandindo a implementao de plataformas
dedados em memria, incluindo Apache Spark, SAP Hana, Kognitio, Terracotta e Gigaspaces.

03 Integrao de dados em tempo real | 18


Para organizaes como essa, a nuvem oferece duas opes principais:

Continuar a gerenciar projetos do Big Data usando ferramentas de cdigo aberto conhecidas, mas migrar
para as mquinas virtuais na nuvem. As vantagens normais da nuvem incluem: inutilizao do oneroso
CapEx, migrao para um modelo de faturamento OpEx, no qual as organizaes pagam de acordo
com os dados armazenados e processados, e facilidade na escalabilidade. Observe que, nesse modelo,
os desenvolvedores e as equipes de TI ainda precisam gerenciar os prprios canais de processamento
de dados e armazenamento. No entanto, esse o caminho mais simples para aproveitar os ativos j
estabelecidos nas empresas, como talentos, ferramentas e relacionamentos com fornecedores.

A nuvem oferece verses totalmente gerenciadas de muitas das ferramentas de cdigo aberto mais
conhecidas no Big Data. Por exemplo, executar Apache Hadoop, Apache Spark, Apache Pig e Apache
Hive na nuvem descarrega tarefas bsicas de gerenciamento de dados como implantao, registro
emonitoramento.21 Esta opo excelente para equipes que querem aproveitar os cenrios fsicos
nolocal e nativos na nuvem.

Qualquer uma das opes permite que as organizaes protejam os investimentos na implantao do
Big Data, mas usam a economia da nuvem de maneira inteligente para controlar custos e ter flexibilidade.

CAPTULO 3 RESUMO

1 Os canais de processamento de dados baseados na nuvem permitem s organizaes extrair, transformar/


preparar e integrar dados de qualquer origem para qualquer destino (no local ou na nuvem).

2 Na preparao dos dados, as abordagens sem servidor gerenciam completamente a infraestrutura


subjacente, e os recursos so alocados automaticamente com base nas necessidades de cada canal
deprocessamento de dados.

3 A anlise de streaming na nuvem permite que dados da Web, de dispositivos mveis e de aplicativos da
IoTfaam streaming para canais de processamento de dados em tempo real. A partir daqui, os dados
podem ser preparados e integrados em um data warehouse na nuvem para gerar insights sobre o negcio
em tempo real.

03 Integrao de dados em tempo real | 19


EMPRESA
ESTUDO DE CASO
Citibank UK

CITIBANK UK
SETOR

Servios financeiros
Nesta prova de conceito, a tarefa da equipe era mostrar como seria
fcil para o Citibank usar o Google BigQuery e o Google Cloud Pub/Sub
para analisar e consumir o equivalente a 1.000 instrumentos SOBRE

financeiros de dados histricos e sobre oscilaes quase em tempo Em um experimento que


real da Thomson Reuters. O trabalho foi feito em colaborao com
funciona como prova de
Sean Micklethwaite, desenvolvedor-chefe do Citibank, e Sebastian
conceito, o Google Cloud fez
Fuchs, especialista em solues da Thomson Reuters.
uma parceria com a Thomson
Reuters para demonstrar para
Buscvamos uma API que pudesse ser usada para fazer consultas o departamento comercial
nos dados histricos quando precisssemos, sem a necessidade e financeiro internacional
de manter nosso prprio data warehouse e sem todo o custo e do Citibank as vantagens

sobrecarga operacional envolvidos, explicou Micklethwaite. Alm de combinar as principais


tecnologias de dados do Google
disso, precisvamos de atualizaes em tempo real sobre os
com o contedo do mercado
dados domercado com latncia no nvel humano. Com o Google
financeiro da Thomson Reuters.
Cloud, temos acesso a todos os dados necessrios em uma nica
plataforma. O BigQuery responsvel pelas nossas necessidades
relativas aos dados histricos de oscilaes e pode processar as
oscilaes brutas em alta frequncia e por longos perodos. OCloud
Pub/Sub gerencia nossos requisitos de dados em tempo real,
erecebemos todos os dados em um formato consistente.

Fuchs adicionou: comeamos a usar o BigQuery sem a necessidade


de fazer muitos planejamentos antecipados de capacidade.
Ele simplesmente cresce conforme a necessidade, seja em
provisionamento de contedo ou nmero de consultas por usurio.

LEIA MAIS

03 Estudo de caso: Citibank | 20


CAPTULO 4

APRENDIZADO DE MQUINA
EINTELIGNCIA ARTIFICIAL

04
APRENDIZADO DE MQUINA E INTELIGNCIA ARTIFICIAL

04
Inovaes recentes sobre o aprendizado de mquina (ML, na sigla em ingls)
e inteligncia artificial (IA) frequentemente ganham destaque no noticirio.
Computadores derrotaram campees mundiais humanos (em ingls) no
Go, um jogo de tabuleiro com mais movimentos do que a quantidade de
tomos no universo.22 Eles superaram videogames famosos (em ingls) e,
sobretudo, aprenderam a reconhecer gatos (em ingls).23 Mais recentemente,
uma iniciativa de IA foi capaz de gerar uma economia gigantesca dos custos
com energia (em ingls), destacando o aprendizado de mquina como uma
estrutura com o propsito geral de compreender dinmicas complexas.24
Essa estrutura est comeando a encontrar vrias aplicaes e a gerar
resultados em diversos setores.

O conceito de IA simples: a capacidade de um software se aprimorar


semprecisar ser explicitamente programado para isso. Em vez de precisar
que desenvolvedores escrevam um novo cdigo manualmente, a IA depende
de algoritmos capazes de se tornarem mais inteligentes ao processar mais

60%
dados do mundo real. A centralizao do armazenamento e da preparao
dedados na nuvem (as metas dos captulos 2 e 3, respectivamente) cria
a base ideal para o treinamento e aperfeioamento dos modelos de IA.

O objetivo da IA vai alm da simples automatizao de tarefas que antes


eram manuais. No varejo on-line, por exemplo, os algoritmos de aprendizado
de mquina so capazes de processar e analisar volumes imensos de dados dos entrevistados
de consumidores conforme os compradores em potencial navegam na loja A C R E D I TA M Q U E

on-line ou no aplicativo para dispositivos mveis de um varejista. Quanto OSUCESSO FUTURO

mais dados o modelo processar, mais ele se aproxima de compreender DA ORGANIZAO

quando e por que um comprador especfico decidir fazer uma determinada DELES DEPENDE DA

compra. Em algum momento, esse aprendizado se torna preditivo, permitindo I M P L E M E N TA O

que o varejista selecione o produto certo para uma determinada pessoa no BEM-SUCEDIDA

momento certo. Este nvel de personalizao, antes atingido por pequenos DOAPRENDIZADO

comerciantes de cidadezinhas que sabiam os nomes e idades dos filhos D E M Q U I N A . 25

da cliente, agora se tornou algo possvel em grande escala.

04 Aprendizado de mquina e inteligncia artificial | 22


Muitas empresas pequenas que investem em tecnologia j esto vendo os resultados do ML. Porm,
as empresas mais bem estabelecidas tm a oportunidade nica de explorar um imenso volume de dados
histricos.26 Com o ML, os resultados dependem da enorme quantidade de dados disponveis para alimentar
os modelos de treinamento (veja Modelos pr-treinados: o primeiro passo em direo IA). Empresas
bem estabelecidas podem explorar os dados prprios (tudo desde registros de sistema de TI at transaes
financeiras e transcries de chamadas de atendimento ao cliente) para treinar e otimizar esses modelos,
que retornam insights exclusivos para a empresa.

M O D E L O S P R - T R E I N A D O S : O P R I M E I R O PA S S O E M D I R E O I A

A forma mais simples de comear a usar a IA aplicando modelos de aprendizado de mquina pr-treinados, disponveis
instantaneamente por meio da nuvem. No necessrio conhecimento prvio sobre ML. Esses recursos podem ser conhecidos
porquem usa aplicativos de consumidores famosos, nos quais alguns dos modelos atingiram nveis de preciso preditiva
que excedem a capacidade humana:

ANLISE DE IMAGENS

Compreender o contedo presente nas


imagensao fornecer imagens e retornar
TRADUO
categorias de texto (p.ex.: automvel, Torre
Traduzir qualquer string fornecida
Eiffel). Detecta objetos e rostos isolados de
para um dos muitos idiomas aceitos.
maneira inteligente ou at extrai palavras
Os servios de traduo se aperfeioam
impressas contidas nas imagens.
continuamente e se expandem para
incluirnovos idiomas.

ANLISE DE VDEOS

Identificar objetos e entidades


ANLISE DE TEXTO
relevantes em vdeos e entender o
que est acontecendo no nvel de Entender a estrutura e o
uma cena ou quadro especficos. significado semntico do texto.
Extrair informaes sobre pessoas,
lugares e eventos dequalquer
texto. Compreender informaes
R E C O N H E C I M E N T O D E FA L A de anlise e sentimentos de novos
Converter udio em texto com preciso extraordinria. artigos, blogs, registros de bate-papo/
Fornecer udio API e receber de volta o texto completo conversas do suporte ao cliente
instantaneamente com compatibilidade em vrios idiomas. ouqualquer texto fornecido.
Oferece suporte a casos de uso em tempo real, como
transcrio ou aplicativos orientados pela fala.

Esses servios so gerais (no vinculados a aplicativos de consumidores) e podem ser facilmente incorporados a qualquer aplicativo
por meio de simples chamadas de API. Os desenvolvedores no precisam conhecer os detalhes estruturais. Sem ter que desenvolver
nenhum desses servios internamente, as empresas podem explorar os recursos mais recentes instantaneamente, como um servio.

04 Aprendizado de mquina e inteligncia artificial | 23


As empresas bem estabelecidas e organizaes lderes dos setores comerciais QUANTIFICAO DOS
normalmente tm dcadas de dados prprios acumulados: transaes BENEFCIOS
financeiras; registros do sistema; dados brutos gerados pelos dados da
Em parceria com a empresa de
indstria, varejo e comrcio eletrnico capturados ao longo dos anos; e
pesquisa M-Brain, o Google Cloud
resultados de desempenho das campanhas de marketing. Devidamente entrevistou 20 lderes empresariais
aperfeioados e usados para treinar modelos personalizados de aprendizado e de TI que implementaram pro-
de mquina, esses dados se tornam uma fonte de capacidade preditiva. Em jetos de aprendizado de mquina

vez de ajustar os servios pr-configurados, as empresas bem estabelecidas sobre as principais vantagens
provenientes dos projetos. Os
podem usar dados prprios para otimizar os processos empresariais para
principais benefcios citados foram
os clientes delas, o que constitui uma poderosa fonte de diferenciao.
os seguintes:

Os casos de uso abrangem muitos setores e revelam algumas das economia de tempo

aplicaes mais promissoras de IA. A deteco de fraudes nos servios reduo dos custos
melhor gerenciamento de risco
financeiros eamanuteno preventiva na indstria destacam a capacidade
melhor qualidade das anlises
de identificar anomalias em um turbilho de transaes e registros confusos,
aumento de receita
uma necessidade comum a muitos setores. As sugestes de diagnstico
etratamento em assistncia mdica e as avaliaes da fiabilidade creditcia Outros citaram a automatizao,
a melhoria do servio e a melhoria
destacam a capacidade do aprendizado de mquina em auxiliar com
do planejamento de inventrio. 27
a categorizao, algo til de forma geral.

Ciclo virtuoso: capturar, preparar, treinar, prever

Os recursos apresentados nos captulos 2 e 3 funcionam como uma base para treinar os modelos de
aprendizado de mquina usando dados prprios. Com os dados brutos j centralizados no armazenamento
em nuvem e em um data warehouse na nuvem, os canais de dados sem servidor podem extrair esses dados
continuamente e prepar-los para treinar modelos de ML personalizados. J que os modelos de ML podem ser
hospedados na nuvem, eles se tornam imediatamente disponveis para fazer predies para aplicativos. Esse
circuito forma um ciclo virtuoso, no qual os modelos de ML hospedados na nuvem continuam se aperfeioando
a partir dos novos dados de treinamento, que, por sua vez, mantm os modelos atualizados e relevantes.

P R I N C I PA I S N E C E S S I D A D E S MELHORIA DA

E M P R E S A R I A I S R E L ATA D A S A N L I S E P R E D I T I VA
P R I N C I PA I S C A S O S D E U S O D E
em:28 APRENDIZADO DE MQUINA

no varejo
ASSISTNCIA MDICA
avaliao do risco de crdito
SERVIOS FINANCEIROS REDUO DA
INDSTRIA C Ode
previso da demanda de produtos para melhorar a cadeia N fornecimento
FIANA NA
INTERVENO
VA R E J O reposio de materiais
AUMENTO DA MANUAL
MDIA/JOGOS A U T O M AT I Z A O

04 Aprendizado de mquina e inteligncia artificial | 24


M L : A N O VA B A S E D E T E S T E S PA R A T E R VA N T A G E N S C O M P E T I T I VA S

A era do aprendizado de mquina finalmente chegou e j est a todo vapor nas empresas pequenas que investem
emtecnologia, de acordo com uma nova pesquisa com lderes empresariais e de tecnologia do MIT Technology
Review Custom. Algumas das principais descobertas:29

60% dos entrevistados j implementaram


estratgias de aprendizado de mquina.

50%
dos responsveis pela implementao
> de ML em fase inicial j notaram um ROI.

45%
tiveram anlises de dados
einsights mais abrangentes.

26% relatam uma maior


vantagemcompetitiva.

Faa o download do relatrio completo aqui.

CAPTULO 4 RESUMO

1 A inteligncia artificial e o derivado dela, o aprendizado de mquina, formam um conceito simples:


a capacidade que os softwares tm de se aprimorar sem a necessidade de serem explicitamente
programados para isso.

2 A IA baseia-se em um grande volume de dados de treinamento, que oferece empresas bem estabelecidas
a vantagem exclusiva de fazer extraes do imenso volume de dados da empresa gerados durante o longo
histrico de operaes.

3 Armazenamento em nuvem, data warehousing, integrao de dados e anlise fornecem uma base natural
para a IA e o ML ao tornar os dados disponveis para treinamento e otimizao em tempo real, o que
alimenta um ciclo virtuoso de melhoria contnua.

04 Aprendizado de mquina e inteligncia artificial | 25


CONCLUSO

Em uma era de vasta quantidade de dados e respostas imediatas, a capacidade


de extrair valor dos dados (independentemente da origem, tamanho e requisitos
que envolvem convenincia) estar no cerne da vantagem competitiva de
umaorganizao.

O primeiro passo repensar a estratgia de dados a partir do zero. As


ferramentas de nuvem atuais permitem que as empresas gerenciem volumes
imensos de diversos tipos de dados com mais eficincia e a um custo menor
doque era possvel anteriormente. As empresas que adotam uma abordagem
decapturar, armazenar, preparar e analisar os dados tero a base para aproveitar
o aprendizado de mquina e a inteligncia artificial. Por fim, esses novos recursos
sero traduzidos em relacionamentos mais prximos entre as empresas e os
clientes delas, tornando os negcios mais preditivos em cada interao.

S A I B A M A I S S O B R E O Q U E O G O O G L E C L O U D P O D E FA Z E R P E L O S E U N E G C I O.

Armazenamento e bancos Solues para Big Data Aprendizado de mquina


de dados einteligncia artificial

SAIBA MAIS SAIBA MAIS SAIBA MAIS

Concluso | 26
REFERNCIAS

1. 81% dos executivos seniores entrevistados pela Ernst & Young concordaram que os dados devem estar no centro da
tomada de deciso, somente 31% precisaram reestruturar as operaes de maneira significativa para incorporar o Big
Data e apenas 23% haviam implementado estratgias de dados em toda a organizao. Ernst & Young, Becoming an
Analytics-Driven Organization (2015) (link).

2. David Reinsel et al., Data Age 2025: The Evolution of Data to Life-Critical (IDC, 2017) (link).

3. Cade Metz, Exclusive: Inside Google Spanner, the Largest Single Database on Earth, Wired
(26 de novembro de 2012) (link).
Cade Metz, Spanner, the Google Database that Measured Time, Is Now Open to Everyone, Wired
(14 de fevereiro de 2017) (link).

4. Robert McMillan, Inside the Artificial Brain thats Remaking the Google Empire, Wired (16 de julho de 2014) (link).
TensorFlow (link).

5. Forrester, Forresters Global Business Technographics Data and Analytics Survey (2016) (link).

6. Leandro DalleMule and Thomas H. Davenport, Whats Your Data Strategy? Harvard Business Review
(maio de 2017) (link).

7. John Gantz and David Reinsel, The Digital Universe in 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far
East (IDC, 2012) (link).

8. Tracie Kambies et al., Tech Trends 2017: Dark Analytics: Illuminating Opportunities Hidden within Unstructured Data
(Deloitte University Press, 2017) (link).

9. Google Cloud Storage Pricing, Google Cloud Platform (link).

10. Forrester, Forresters Global Business Technographics Data and Analytics Survey (2016) (link).

11. Three Ways Marketing Organizations Can Make Data More Actionable, Harvard Business Review
(9 de agosto de 2016) (link).

12. Modernos data warehouses na nuvem auxiliam a importao (e at consultas especficas) de muitos formatos
semiestruturados automaticamente. Para saber mais sobre dados no estruturados que precisam ser transformados
primeiro (ex: ETL), veja o captulo 3: preparao de dados.

13. Forrester, Forresters Global Business Technographics Data and Analytics Survey (2016) (link).

14. Forrester, Forresters Global Business Technographics Data and Analytics Survey (2016) (link).

15. James Manyika et al., Big Data: The Next Frontier for Innovation, Competition, and Productivity (McKinsey Global Institute,
2011) (link).

16. Lisa Morgan, Citizen Data Scientists: 7 Ways to Harness Talent, InformationWeek (24 de julho de 2015) (link).

17. Centro Colorado de Medicina Personalizada: Improving Healthcare by Integrating Patient Records and Genetic Data Using
Google Cloud Platform and Tableau (Google Cloud Platform, 2017) (link).

18. Steve Lohr, For Big-Data Scientists, Janitor Work Is Key Hurdle to Insights, New York Times (17 de agosto de 2014) (link).

19. Forrester, Forresters Global Business Technographics Data and Analytics Survey (2016) (link).

20. Forrester, Forresters Global Business Technographics Data and Analytics Survey (2016) (link).

21. Apache Hadoop, The Apache Software Foundation (link).

Apache Spark, The Apache Software Foundation (link).

Apache Pig, The Apache Software Foundation (link).

Apache Hive, The Apache Software Foundation (link).

Referncias | 27
22. Paul Mozur, Googles A.I. Program Rattles Chinese Go-Master As It Wins Match, New York Times
(25 de maio de 2017) (link).

23. Nicola Twilley, Artificial Intelligence Goes to the Arcade, The New Yorker (25 de fevereiro de 2015) (link).

John Markoff, How Many Computers to Identify A Cat? 16,000, The New Yorker (25 de junho de 2012) (link).

24. James Vincent, Google Uses DeepMind AI to Cut Data Center Energy Bills, The Verge (21 de julho de 2016) (link).

25. Harvard Business Review Analytic Services Global Data and Analytics Survey, sponsored by Google (2017).

26. Uma pesquisa do MIT Technology Review mostrou pequenas empresas na fase inicial da adoo do aprendizado
de mquina e descobriu que: 60% de um grupo de 375 entrevistados, no qual cerca de dois teros eram empresas
com menos de 1.000 funcionrios, foram amplamente influenciados pelos setores de tecnologia, negcios e servios
financeiros. MIT Technology Review Custom and Google Cloud, Machine Learning: The New Proving Ground for
Competitive Advantage (2017) (link).

27. Anna Rader, Machine Learning Initiatives Across Industries: Practical Lessons from IT Executives (M-Brain, sponsored
byGoogle, 2017) (link).
28. Anna Rader and Irida Jano, Machine Learning Market Research: How Leading Industries Are Adopting AI
(M-Brain 2017)(link).

29. MIT Technology Review Custom and Google Cloud, Machine Learning: The New Proving Ground for Competitive
Advantage (2017) (link).

Concluso | 28
2017 Google Inc.
1600 Amphitheatre Parkway, Mountain View, CA 94043

You might also like