You are on page 1of 17

A TI com I de Inteligncia

http://www.timaisinteligente.org

Desduplicao vs Compresso
Uma Comparao Rpida
Ricardo Costa Autor Blog TI + I ricardocosta@timaisinteligente.org

Utilize o contedo livremente, somente pedimos que mantenha uma referncia ao Blog TI +I

Exemplo de Compresso de Texto


O rato roeu a roupa do rei de Roma
Caracter O r o a (espao) # de Ocorrncias 1 4 5 4 8 Valor ASCII 79 114 111 97 32 Valor Binrio 0100 1111 0111 0010 0110 1111 0110 0001 0010 0000

Como exemplo, tomemos esses caracteres como os mais presentes no texto Cada caracter um conjunto de 8 bits, ou 1 byte (espao tambm conta) O texto todo tem 34 caracteres, ou 34 bytes (incluindo espaos) A compresso visa substituir tais caracteres por valores com menos bits como o cdigo Morse (caracter E representado por um .)

TI + Inteligente : A TI com I de Inteligncia (2008-2009)

Exemplo de Compresso de Texto


Criemos nossa tabela de representao de caracteres: Caracter O r o a (espao) # de Ocorrncias 1 4 5 4 8 Valor ASCII 79 114 111 97 32 Valor Binrio 0100 1111 0111 0010 0110 1111 0110 0001 0010 0000

Note que cada caracter ficou representado por bits especficos O compressor sabe agora que onde tiver 01001 o caracter O Note que agora os caracteres com maior incidncia no texto possuem menos bits Esse tipo de algoritmo segue a Codificao de Huffman

TI + Inteligente : A TI com I de Inteligncia (2008-2009)

Exemplo de Compresso de Texto


Caracter Valor Binrio Tamanho de Valor Original bits Originais Comprimido 0100 1111 0111 0010 0110 1111 0110 0001 0010 0000 8 8 8 8 8 0100 1 0111 111 0110 00 Tamanho de Taxa de bits Compresso Comprimidos Atingida 5 4 3 3 2 37,5% 50% 62,5% 62,5% 75%

O r o a (espao)

Com base na tabela de converso acima, vejamos uma comparao entre a frase original e a comprimida (em binrio):
Frase Original
010011110010000001110010011000010111010001 101111001000000111001001101111011001010111 010100100000011000010010000001110010011011 110111010101110000011000010010000001100100 011011110010000001110010011001010110100100 100000011001000110010100100000010100100110 11110110110101100001

Frase Comprimida

272 bits

164 bits

Compresso de 39,7%

010010001110110011101001110001111110110010 101110101000110000111111011101010111000001 100001100100111000111011001010110100100011 00100011001010001010010111011011010110

TI + Inteligente : A TI com I de Inteligncia (2008-2009)

Escopo da Compresso
Os algoritmos de compresso so baseados em frmulas matemticas e estatsticas Quantas vezes vemos a letra y em um texto em comparao com a letra a?
Beneficia-se a compresso dos caracteres mais incidentes em um texto Alguns algoritmos usam estatstica para determinar a incidncia e criar as tabelas de substituio (como criadas nos slides anteriores) Entretanto, se o y aparece pouco no texto em Portugus, pode ser que aparea muito no texto em Ingls! Algoritmos podem ser otimizados para cada idioma
TI + Inteligente : A TI com I de Inteligncia (2008-2009)

Escopo da Compresso A compresso se preocupa com cada objeto que ser avaliado, e no se beneficia com nada feito em objetos anteriormente avaliados (cada um tem uma compresso):
O rato roeu a roupa do rei de Roma O rato roeu a ratoeira do filho do rei de Roma O filho do rei de Roma morreu

Cada um ser avaliado em separado! A desduplicao usa uma idia diferente!


TI + Inteligente : A TI com I de Inteligncia (2008-2009)

Alguns Dados No Comprimem


Textos sofrem grande reduo Imagens, Vdeos, Som, ZIP, etc j so comprimidos por si s
Por isso a compresso baixa

Imagens sofrem reduo de nuances de cor e brilho


O olho humano no percebe pequenas variaes

Som e Vdeo sofrem reduo de volume e resoluo


Por isso alguns codecs fazem o som ficar baixo, e o vdeo ficar quadriculado
TI + Inteligente : A TI com I de Inteligncia (2008-2009)

Exemplo de Desduplicao de Dados Imaginemos as trs frases abaixo, por exemplo, presentes em trs arquivos diferentes:
O rato roeu a roupa do rei de Roma O filho do rei de Roma morreu O rato roeu a ratoeira do filho do rei de Roma

Ao invs de trabalhar caracteres, a desduplicao trabalha em blocos de dados Tais blocos podem ser variveis ou fixos, dependendo do algoritmo usado
TI + Inteligente : A TI com I de Inteligncia (2008-2009)

Exemplo de Desduplicao de Dados


Vamos quebrar o texto em blocos variados: O rato roeu a roupa do rei de Roma O rato roeu a roupa do rei de Roma
O algoritmo criou diversos blocos de vrios tamanhos, incluindo espaos (existem algoritmos que quebram em blocos de tamanho fixo) O tamanho, e o mtodo de quebra em blocos, depende do algoritmo usado e pensado para ter a melhor relao reduo x performance
TI + Inteligente : A TI com I de Inteligncia (2008-2009)

Exemplo de Desduplicao de Dados


O rato roeu a roupa do rei de Roma

Note que o texto, inicialmente, no sofreu reduo Cada bloco identificado (hashing) e o algoritmo mantm um banco de metadados
Identificao de cada bloco j avaliado

Se esse mesmo texto tivesse duas palavras iguais, j haveria reduo


O banco de metadados sustitui um bloco duplicado por um ponteiro que liga a um bloco j avaliado antes
TI + Inteligente : A TI com I de Inteligncia (2008-2009)

Exemplo de Desduplicao de Dados Avaliemos agora as outras frases do exemplo:


O filho do rei de Roma morreu O rato roeu a ratoeira do filho do rei de Roma

Agora veja o que j estava no banco de metadados:


O rato roeu a roupa do rei de Roma
Note que s existem poucos blocos nicos entre os textos: roupa, ratoeira e morreu Todos os outros j fazem parte do banco de metadados e, portanto, no precisam ser armazenados novamente (basta um ponteiro!)
TI + Inteligente : A TI com I de Inteligncia (2008-2009)

Exemplo de Desduplicao de Dados


Para facilitar o clculo, vamos contar quantos bytes ns eliminamos do armazenamento (cinza=bytes repetidos, vermelho=bytes nicos):

O rato roeu a roupa do rei de Roma


34 Bytes Originais, 27 nicos (Reduo: 20,6%)

O filho do rei de Roma morreu


29 Bytes Originais, 11 nicos (Reduo: 62%)

O rato roeu a ratoeira do filho do rei de Roma


46 Bytes Originais, 8 nicos (Reduo: 82,6%)

Cada novo texto avaliado, blocos repetidos vo surgindo, aumentando a reduo!


TI + Inteligente : A TI com I de Inteligncia (2008-2009)

Escopo da Desduplicao de Dados A desduplicao pode agir:


Localmente: o escopo um file system, um diretrio, um volume, etc
Portanto, tende a ter menor taxa de reduo

Globalmente: aproveita blocos que j foram gravados oriundos de qualquer ponto da rede
Portanto, tende a ter maior taxa de reduo

A desduplicao apresenta um paradoxo:


Quanto mais dados, maior a reduo do armazenamento
TI + Inteligente : A TI com I de Inteligncia (2008-2009)

Resumo da Comparao Tanto a Desduplicao, quanto a Compresso, so funcionalidades (e no produtos) presentes em vrias camadas:
Cliente, Servidor ou Armazenamento de Produo Rede (Aceleradores de WAN) Software (ou Armazenamento) de Backup e Arquivamento

Podem ser apresentadas sob a forma de software, hardware ou appliance


TI + Inteligente : A TI com I de Inteligncia (2008-2009)

Resumo da Comparao
A desduplicao aproveita blocos j avaliados, j a compresso faz anlises pontuais No Data Sheet, vemos taxas de compresso de 2:1 a 3:1
No mundo real se v algo em torno de 1,6:1

A desduplicao global pode atingir taxas de 500:1 de reduo


Especialmente em file system e mquinas virtuais No mundo real, File System e VMWare tem redues entre 97% e 99% nos backups (depende da taxa de atualizao ou de criao de novos dados) No mundo real, Databases podem chegar a algo entre 92% e 97% (dependendo do dado armazenado no banco)

Como regra bsica, se o dado sofre pouca compresso (imagem, som, vdeo, ZIP, etc), fatalmente sofrer pouca ou nenhuma desduplicao Como avaliar o que melhor utilizar?
Compresso (hardware) tende a ser mais performtica porm reduz pouco Desduplicao (software) tende a ser menos performtica porm reduz enormemente o armazenamento

TI + Inteligente : A TI com I de Inteligncia (2008-2009)

Resumo da Comparao
Cada sistema, e tipo de dado, tem seu benefcio com um ou outro mtodo de reduo
Databases, por exemplo, tendem a necessitar de backups mais rpidos (compresso pode trazer maior ganho) File system, mquinas virtuais e emails, tendem a ter volumes absurdos, altssimo nvel de duplicaes, e menor SLA de backup (desduplicao pode trazer maior ganho)

Dados Desduplicados podem, ainda, sofrer Compresso para maiores ganhos


O contrrio pssimo

Desduplicao prejudicada com dados criptografados, ou backups em regime de multiplexao


TI + Inteligente : A TI com I de Inteligncia (2008-2009)

A TI com I de Inteligncia
http://www.timaisinteligente.org

Desduplicao vs Compresso
Uma Comparao Rpida
OBRIGADO Ricardo Costa Autor Blog TI + I ricardocosta@timaisinteligente.org

Utilize o contedo livremente, somente pedimos que mantenha uma referncia ao Blog TI +I

You might also like