Professional Documents
Culture Documents
http://www.timaisinteligente.org
Desduplicao vs Compresso
Uma Comparao Rpida
Ricardo Costa Autor Blog TI + I ricardocosta@timaisinteligente.org
Utilize o contedo livremente, somente pedimos que mantenha uma referncia ao Blog TI +I
Como exemplo, tomemos esses caracteres como os mais presentes no texto Cada caracter um conjunto de 8 bits, ou 1 byte (espao tambm conta) O texto todo tem 34 caracteres, ou 34 bytes (incluindo espaos) A compresso visa substituir tais caracteres por valores com menos bits como o cdigo Morse (caracter E representado por um .)
Note que cada caracter ficou representado por bits especficos O compressor sabe agora que onde tiver 01001 o caracter O Note que agora os caracteres com maior incidncia no texto possuem menos bits Esse tipo de algoritmo segue a Codificao de Huffman
O r o a (espao)
Com base na tabela de converso acima, vejamos uma comparao entre a frase original e a comprimida (em binrio):
Frase Original
010011110010000001110010011000010111010001 101111001000000111001001101111011001010111 010100100000011000010010000001110010011011 110111010101110000011000010010000001100100 011011110010000001110010011001010110100100 100000011001000110010100100000010100100110 11110110110101100001
Frase Comprimida
272 bits
164 bits
Compresso de 39,7%
Escopo da Compresso
Os algoritmos de compresso so baseados em frmulas matemticas e estatsticas Quantas vezes vemos a letra y em um texto em comparao com a letra a?
Beneficia-se a compresso dos caracteres mais incidentes em um texto Alguns algoritmos usam estatstica para determinar a incidncia e criar as tabelas de substituio (como criadas nos slides anteriores) Entretanto, se o y aparece pouco no texto em Portugus, pode ser que aparea muito no texto em Ingls! Algoritmos podem ser otimizados para cada idioma
TI + Inteligente : A TI com I de Inteligncia (2008-2009)
Escopo da Compresso A compresso se preocupa com cada objeto que ser avaliado, e no se beneficia com nada feito em objetos anteriormente avaliados (cada um tem uma compresso):
O rato roeu a roupa do rei de Roma O rato roeu a ratoeira do filho do rei de Roma O filho do rei de Roma morreu
Exemplo de Desduplicao de Dados Imaginemos as trs frases abaixo, por exemplo, presentes em trs arquivos diferentes:
O rato roeu a roupa do rei de Roma O filho do rei de Roma morreu O rato roeu a ratoeira do filho do rei de Roma
Ao invs de trabalhar caracteres, a desduplicao trabalha em blocos de dados Tais blocos podem ser variveis ou fixos, dependendo do algoritmo usado
TI + Inteligente : A TI com I de Inteligncia (2008-2009)
Note que o texto, inicialmente, no sofreu reduo Cada bloco identificado (hashing) e o algoritmo mantm um banco de metadados
Identificao de cada bloco j avaliado
Globalmente: aproveita blocos que j foram gravados oriundos de qualquer ponto da rede
Portanto, tende a ter maior taxa de reduo
Resumo da Comparao Tanto a Desduplicao, quanto a Compresso, so funcionalidades (e no produtos) presentes em vrias camadas:
Cliente, Servidor ou Armazenamento de Produo Rede (Aceleradores de WAN) Software (ou Armazenamento) de Backup e Arquivamento
Resumo da Comparao
A desduplicao aproveita blocos j avaliados, j a compresso faz anlises pontuais No Data Sheet, vemos taxas de compresso de 2:1 a 3:1
No mundo real se v algo em torno de 1,6:1
Como regra bsica, se o dado sofre pouca compresso (imagem, som, vdeo, ZIP, etc), fatalmente sofrer pouca ou nenhuma desduplicao Como avaliar o que melhor utilizar?
Compresso (hardware) tende a ser mais performtica porm reduz pouco Desduplicao (software) tende a ser menos performtica porm reduz enormemente o armazenamento
Resumo da Comparao
Cada sistema, e tipo de dado, tem seu benefcio com um ou outro mtodo de reduo
Databases, por exemplo, tendem a necessitar de backups mais rpidos (compresso pode trazer maior ganho) File system, mquinas virtuais e emails, tendem a ter volumes absurdos, altssimo nvel de duplicaes, e menor SLA de backup (desduplicao pode trazer maior ganho)
A TI com I de Inteligncia
http://www.timaisinteligente.org
Desduplicao vs Compresso
Uma Comparao Rpida
OBRIGADO Ricardo Costa Autor Blog TI + I ricardocosta@timaisinteligente.org
Utilize o contedo livremente, somente pedimos que mantenha uma referncia ao Blog TI +I