You are on page 1of 19

Prof.

Daniela Barreiro Claro


Estes dados vem
dos diversos
dispositivos
 Dados estão crescendo…
 90% dos dados foram gerados há 2 anos
Dados gerados

10%

Há 2 anos atrás

Desde o início

90%

Prof. Daniela Barreiro Claro


 Grande quantidade de dados
 Não se trata de um simples gargalo de um
SGBD
 Efetivamente, são capacidades de
armazenamento e processamento sendo
esgotadas.

SGBD

Prof. Daniela Barreiro Claro


 Qual a forma de se escolher um filme no cinema?
Sinopse:
Detroit - in the future - is crime-ridden, and run by a
massive company. The company have developed a huge
crime-fighting robot, which unfortunately develops a rather
dangerous glitch. The company sees a way to get back in
favour with the public when a cop called Alex Murphy is killed
by a street gang. Murphy's body is reconstructed within a
steel shell and named Robocop. The Robocop is very
successful against criminals, and becomes a target of
supervillian Boddicker.

Trailer
 http://youtu.be/clqK5OC3BWE

Prof. Daniela Barreiro Claro


 Quais
os tipos de dados que
temos hoje?
◦ Dados Estruturados
◦ Dados Semi-Estruturados
◦ Dados não-estruturados

Prof. Daniela Barreiro Claro


 Relacionados a um SGBD

SGBD

Prof. Daniela Barreiro Claro


 Dados organizados em blocos semânticos
(relações)
 Dados de um mesmo grupo possuem as
mesmas descrições (atributos)
 Descrições para todas as classes de um grupo
possuem o mesmo formato (esquema)
 Dados mantidos em um SGBD sao chamados
de Dados Estruturados por manterem a
mesma estrutura de representação (rígida),
previamente projetada (esquema)

Prof. Daniela Barreiro Claro


 Atualmente, muitos dados não são mantidos
no SGBD
 Dados Web, por exemplo, apresentam uma
organização bastante heterogênea.
 A alta heterogeneidade dificulta as consultas
a estes dados
 Assim, estes dados sao classificados como
semi-estruturados
◦ Não são estritamente tipados
◦ Não são complementamente não-estruturados

Prof. Daniela Barreiro Claro


 Os dados semi-estruturados são dados onde
o esquema de representação está presente
(de forma explícita ou implícita)
 Auto-descritivo
 Uma análise do dado deve ser feita para que
a sua estrutura possa ser identificada e
extraída

Prof. Daniela Barreiro Claro


 Características principais
◦ Definição à posteriori
 Esquemas são definidos após a existência dos dados
 Investigação de suas estruturas particulares
◦ Estrutura irregular
 Não existe um esquema padrão para os dados
 Coleções de dados são definidos de maneiras
diferentes, contendo informações incompletas
◦ Estrutura implícita
 Muitas vezes existe uma estrutura implícita
◦ Estrutura parcial
 Apenas parte dos dados disponíveis podem ter uma
estrutura

Prof. Daniela Barreiro Claro


Dados Estruturados Dados SemiEstruturados
Esquema pré-definido Nem sempre há um esquema
Estrutura regular Estrutura irregular
Estrutura independente dos dados Estrutura embutida nos dados
Estrutura reduzida Estrutura extensa (particularidades
de cada dado, visto que cada um
pode ter uma organização própria)
Fracamente evolutiva Fortemente evolutiva (estrutura
modifica-se com frequencia)
Prescritiva (esquemas fechados e Estrutura descritiva
restrições de integridade)
Distinção entre estrutura e dados é Distinção entre estrutura e dados
clara não é clara

Prof. Daniela Barreiro Claro


 Exemplos
◦ XML – eXtensible Markup Language
◦ RDF – Resource Description Framework
◦ OWL – Web Ontology Language

Prof. Daniela Barreiro Claro


 Sao os dados que não possuem uma
estrutura definida.
 Normalmente caracterizados por documentos
textos, imagens, videos, etc
 Nem as estruturas sao descritas
implicitamente
 Grande maioria dos dados atuais na Web e
nas empresas seguem este formato.

Prof. Daniela Barreiro Claro


 Crescimento diferenciado dos tipos de dados

80
Filmes,
figuras,
60
Preferem documentos
RICH DATA 40 Word
Textos
20 simples, HTML

1996
2012
Prof. Daniela Barreiro Claro
 Atualmente, devido a variedade de
dispositivos, os dados também são variados
 Diversos dispositivos
◦ Explosão de sensores, dispositivos inteligentes,
tecnologias de colaboração, redes sociais
 Dados não são mais relacionais, mas
diversificados de paginas web, emails,
documentos, dados de sensores, etc
 Sistemas tradicionais estão em colapso para
processar estes dados

Prof. Daniela Barreiro Claro


Dados disponíveis x Processamento dos Dados

Dados disponíveis

Processamento dos
dados

Prof. Daniela Barreiro Claro


 Volume de Dados
 No ano 2000, eram armazenados no mundo
◦ 800.000 Petabytes (PB)
 IDC: Expectativa para 2020
◦ 35 zetabytes (ZB)

 Twitter sozinho gera mais de 7 terabytes


de dados TODOS OS DIAS
 Facebook 10TB

Prof. Daniela Barreiro Claro


 Isso deu origem ao BIG DATA

Prof. Daniela Barreiro Claro


 É ideal:
◦ Analisar dados semi-estruturados e não-
estruturados de uma variedade de fontes
◦ Quando todos os dados ou quase todos devem ser
analisados
◦ Para analises interativas e exploratórias

 Big Data releva as formalidades e restrições


do Data Warehouse
 Preserva a fidelidade dos dados

Prof. Daniela Barreiro Claro

You might also like