You are on page 1of 41

TEORA DE INFORMACIN

Unidad II 2da Parte


RUIDO: Expresin genrica utilizada para referirse a las distorsiones
originadas en forma externa al proceso de comunicacin
Teora de Claude E. Shannon
Modelo cientfico del proceso de comunicacin
Formulacin de leyes matemticas de Hartley
(gensis de la TI)
Fuente Transmisor Canal Receptor Destino
Clasificacin de Fuentes
Por la naturaleza generativa de sus mensajes una
fuente puede ser aleatoria o determinstica.
Por la relacin entre los mensajes emitidos una
fuente puede ser estructurada o no estructurada (
o catica).
Clasificacin de Fuentes
Existen varios tipos de fuentes. Para la teora de la
informacin interesan las fuentes aleatorias y
estructuradas.
Una fuente es aleatoria cuando no es posible predecir cual
es el prximo mensaje a emitir por la misma.
Una fuente es estructurada cuando posee un cierto nivel de
redundancia.
Una fuente no estructurada o de informacin pura es aquella en
que todos los mensajes son absolutamente aleatorios sin relacin
alguna ni sentido aparente, este tipo de fuente emite mensajes
que no se pueden comprimir, un mensaje para poder ser
comprimido debe poseer un cierto nivel de redundancia, la
informacin pura no puede ser comprimida pues perderamos un
grado de conocimiento sobre el mensaje.
Clasificacin de Fuentes
Fuente no-estructurada.
Fuente Estructurada.
Clasificacin de Fuentes
Las fuentes digitales se suelen clasificar segn la
relacin que tenga un smbolo del alfabeto:
Fuentes sin memoria: los smbolos son
estadsticamente independientes entre s. De esta
manera, los smbolos que hayan aparecido hasta el
momento no van a condicionar al smbolo presente
ni a posteriores.
Fuentes con memoria: la aparicin de los
smbolos no es estadsticamente independiente. Es
decir, si han aparecido M1 smbolos, el smbolo M-
simo est condicionado por los anteriores.
Distintos tipo de cdigos, Cdigos
decodificables
Un cdigo es una
representacin binaria de un
cierto mensaje, el proceso de
codificacin y decodificacin
es simple e intuitivo, el
codificador recibe un mensaje
"m1" y emite un cdigo, el
decodificador recibe un
cdigo y emite un mensaje
"m2", considerando que
nuestros codificadores
pretendern no perder
informacin debemos pedir
que m1 sea igual a m2, es
decir que el cdigo es
decodificable.
Un cdigo es decodificable s y solo s
un cdigo solo puede corresponder a
un nico mensaje.
Ejemplo:
Sea el siguiente esquema de codificacin:
a=0
b=01
c=10
Si el decodificador recibe el cdigo: "0010"
no puede distinguir si el mensaje original fue "aba" o "aac",
ya que puede interpretarlo como 0-01-0 o como 0-0-10
Este tipo de cdigo no-decodificable se denomina "libre de
prefijo", para construir cdigos libres de prefijo para un
alfabeto puede usarse casi cualquier funcin, aunque todo
el proceso de codificacin en s deja de tener sentido pues
no es posible decodificar correctamente los mensajes.
Cantidad de Informacin
Definicin
El nmero mnimo n de elementos codificados en
binario necesarios para identificar el mensaje entre
un total de N mensajes posibles.
Si P = 1/ N (relacin inversa proporcional de
ocurrencia del mensaje)
Con slo tres preguntas ms o menos inteligentes podemos pasar de la
incertidumbre total a la certeza:
Pregunta 1: Est entre la opcin 1 y la 4? S
Pregunta 2: Est entre la opcin 1 y la 2? No
Pregunta 3: Es la opcin 4? No
Se acaba la indeterminacin!
Ejemplo del Mago
Combinacin 1 Combinacin 5
Combinacin 2 Combinacin 6
Combinacin 3 Combinacin 7
Combinacin 4 Combinacin 8
Continuacin Ejemplo del Mago / Tensin
Dada una Fuente de informacin y un canal de comunicacin, existe una tcnica
de codificacin tal que la informacin puede ser transmitida sobre el canal y con
una frecuencia de errores abitrariamente pequea a pesar de la presencia de ruido
Ejemplos
A 0 0 0
B 0 0 1
C 0 1 0
D 0 1 1
E 1 0 0
F 1 0 1
G 1 1 0
H 1 1 1
Letra Cdigo Binario
2
n
Estados posibles
codificados
n = 3
2
3
= 8
PILA
TENSION ELECTRICA
1
0
Si existen N posibilidades, todas igualmente probables, la cantidad de
informacin ser igual a Log
2
N. Es, entonces, el Log
2
N la funcin matemtica que
nos indicar la cantidad de bits de informacin de una situacin determinada.
Esto puede esquematizarse de la siguiente manera:
Continuacin Ejemplo del Mago / Tensin
Continuacin Ejemplo del Mago / Tensin
Antes de comenzar la transmisin, el receptor tiene una
incertidumbre total de cual ser el mensaje a recibir. Como la
fuente tiene "8" elementos (letras A a la H), y como todas tienen
la misma probabilidad de emitirse (sistema equiprobable), la
incertidumbre tiene una probabilidad de:
P = Incertidumbre del receptor 1/8 = 0.125 = 12,5%
Continuacin Ejemplo del Mago / Tensin
Supongamos, que la primera medicin indica ausencia
de tensin elctrica, o sea que ha llegado un "0".
Ahora sabemos que la letra estar entre las cuatro
primeras, ya que ellas son las que comienzan con "0".
P = Incertidumbre del receptor 1/8 = 0.125 = 12,5%
Si el 1 bit e 0 (inexistencia de tensin elctrica)
A
B
C
D
Candidatos P = 1/4 = 0,25 = 25%
Continuacin Ejemplo del Mago / Tensin
Si en el segundo periodo, medimos y nos
encontramos que existe una tensin elctrica,
estamos ante la presencia de un "1", con lo cual se
reduce la incertidumbre por cuanto solo hay dos
posibilidades:
Si el 2 bit, es 1 (existe tensin elctrica)
C
D
Candidatos P = 1/2 = 0,5 = 50%
Continuacin Ejemplo del Mago / Tensin
Suponemos que despus de la tercer medicin
obtenemos que existe ausencia de tensin elctrica,
o sea que lleg otro "0", estaremos ante la nica
alternativa posible:
C = 010
En este caso la probabilidad ser:
Al recibir el 3 bit, se alcanza certidumbre
total P = 1/1 = 1 = 100%
Resumen Ejemplo del Mago / Tensin
P = Incertidumbre del receptor 1/8 = 0.125 = 12,5%
Si el 1 bit e 0 (inexistencia de tensin elctrica)
A
B
C
D
Si el 2 bit, es 1 (existe tensin elctrica)
C
D
Al recibir el 3 bit, se alcanza certidumbre total P = 1/1 = 1 = 100%
Candidatos P = 1/4 = 0,25 = 25%
Candidatos P = 1/2 = 0,5 = 50%
La figura nos muestra una situacin con 8 posibilidades, cada una
con una misma probabilidad de 1/8. Para poder determinar una
posibilidad especfica de estas 8, la eleccin requiere como
mnimo 3 etapas, cada una de las cuales arroja un bit de
informacin.
A) El primer bit corresponde a la eleccin entre las primeras
cuatro o segundas cuatro posibilidades.
B) El segundo bit corresponde al primer o segundo par de las 4
posibilidades ya elegidas.
C) El ltimo bit determina el primer o segundo miembro del par y
especifica la posibilidad elegida. Como vemos, el primero de bits
que se requieren en esta situacin para determinar una
posibilidad especfica es de 3, lo que corresponde al Log
2
8
Continuacin Ejemplo del Mago / Tensin
Incertidumbre
La llegada de un smbolo duplica la probabilidad, disminuyendo en la
misma proporcin la incertidumbre de la llegada de un smbolo.
Podemos decir que la incertidumbre era:
Antes de comenzar a transmitir era = 1 = 100 %.
Despus de la llegada del primer smbolo (0) = 0,75 = 75 %.
Despus de la llegada del segundo smbolo (1) = 0,75 = 50 %.
Despus de la llegada del tercer smbolo (1) = 0 = 0 %.
O sea, con cada llegada de smbolo la incertidumbre se reduce, hasta
llegar a la incertidumbre nula, cuando la probabilidad es del 100%.
Generalizacin
De acuerdo a la teora de la informacin, puede
definirse la cantidad de informacin de un mensaje
"I", como: "el nmero mnimo "n" de elementos
codificados en binarios necesarios para identificar
el mensaje entre un total de "N" mensajes posibles".
O sea:
Formalizacin de la cantidad de Informacin
N = Mensajes posibles
n = Elementos codificado en binarios
I = n = Log
2
N
Informacin
N = 1/P
I = log
2
N
I = Log
2
1/P
I = Log
2
P
-1
I = -1 Log
2
P
Para eventos igualmente probables la probabilidad:
P = N
E
Cantidad de elementos
Cantidad de variables
UNIDAD = bit
Informacin
N = 1/P
I = log
2
N
I = Log
2
1/P
I = Log
2
P
-1
I = -1 Log
2
P
Lo cual significa que la informacin de un evento x es
ms grande si la probabilidad de ese evento es ms
pequea.
En otras palabras, un evento tiene ms informacin si es
ms difcil de adivinar
UNIDAD = bit
1
c
i
p
i
0
0
Ejemplo
I = Log
2
N
E
[ bit ]
Ejemplo:
Moneda:
E = 1 (moneda) Cantidad de elementos
N = 2 (cara/seca) Cantidad de variables
I = Log
2
2
1
= 1 [ bit ]
Ejercicio# 1
Gnero: 1 bit
La poblacin humana es casi exactamente pareja entre
hombres y mujeres.
p masculino = p femenino = 1
2
,as que saber el
gnero es:
I x = log
2
1
2
= 1 bit.
Aunque parezca poco, el gnero es comnmente
independiente de otros tipos de informacin, as que
puedes aadir fcilmente y seguramente 1 bit de
informacin preguntando por el sexo.
Ejercicio#2
Determinar la parte entera del nmero x = log
2
11
Para determinar la parte entera se buscan las
potencias de 2 entre las que se encuentra el nmero 11
2
x
< 11 < 2
x
Elegir la parte entera
Respuesta# 2
Para determinar la parte entera se buscan las
potencias de 2 entre las que se encuentra el nmero
11, estas son 2
3
y 2
4
, es decir, se verifica
2
3
< 11 < 2
4
.
Tomando logaritmos en base 2 se mantiene la
desigualdad, ya que la base es mayor que 1, as
log
2
2
3
< log
2
11 < log
2
2
4
, es decir,
3 < log2 11 < 4,
de donde se deduce que la parte entera de
log
2
11 es igual a 3.
Ejercicio# 3
Calculemos la cantidad de informacin obtenida
cada vez que se realiza una lectura de la hora de
un reloj, suponiendo que esta se hace en horas y
minutos (hh:mm)
Respuesta
= 0,000694444
Ejercicio# 4
Se tiene un libro de 256 pginas, que se abre por
una al azar. El conocimiento de esa pgina nos
proporciona la siguiente cantidad de informacin:
Respuesta
=
1
128
I = Log
2
1/P

I = Log
2
1/0,0078125

I = 8 bits de informacin

Efectivamente, si planteamos preguntas de la forma: se


encuentra en la primera mitad?, haran falta, como mnimo, 8
preguntas de este tipo para poder deducir la pgina.

Como cada respuesta nos proporciona 1 bit de informacin,


la cantidad de sta que se nos habr proporcionado hasta
llegar al final ser de 8 bits.
Entropa
La entropa es como la cantidad media de
informacin que contienen los smbolos
transmitidos. Palabras como el o que son los
smbolos ms frecuentes en un texto pero, sin
embargo, son los que aportan menos informacin. El
mensaje tendr informacin relevante y mxima
entropa cuando todos los smbolos son igualmente
probables.
Entropa
Shannon formul el concepto matemtico de
entropa, un concepto que provee una medida de la
cantidad de informacin promedio producida por
cada smbolo de una fuente discreta sin memoria.
De acuerdo con la entropa de una fuente sin
memoria con alfabeto de fuente L conteniendo K
smbolos est dada por:
Entropa Compresin
Para codificar los mensajes de una fuente
intentaremos pues utilizar menor cantidad de bits
para los mensajes ms probables y mayor
cantidad de bits para los mensajes menos
probables de forma tal que el promedio de bits
utilizados para codificar los mensajes sea menor a
la cantidad de bits promedio de los mensajes
originales. Esta es la base de la compresin de
datos.
Entropa Compresin - Objetivo
Shannon demostr, oportunamente que no es
posible comprimir una fuente estadsticamente mas
all del nivel indicado por su entropa..
Ejemplo:
Sea el siguiente string/archivo/fuente:
"Holasaludosatodos" (17 bytes)
Carcter Frecuencia Probabilidad Longitud Ideal
H
o
l
a
s
u
d
t
Ejemplo: "Holasaludosatodos" (17 bytes)
Carcter Frecuencia Probabilidad Longitud Ideal
H 1
o 4
l 2
a 3
s 3
u 1
d 2
t 1
Ejemplo: "Holasaludosatodos" (17 bytes)
Carcter Frecuencia Probabilidad Longitud Ideal
H 1 1/17=0.0588
o 4 4/17=0.2353
l 2 2/17=0.1176
a 3 3/17=0.1765
s 3 3/17=0.1765
u 1 1/17=0.0588
d 2 2/17=0.1176
t 1 1/17=0.0588
Ejemplo: "Holasaludosatodos" (17 bytes)
Carcter Frecuencia Probabilidad Longitud Ideal
H 1 1/17=0.0588 -log2(0.0588)=4.0874 bits
o 4 4/17=0.2353
-log2(0.2353)=2.0874 bits
l 2 2/17=0.1176 -log2(0.1176)=3.0874 bits.
a 3 3/17=0.1765 -log2(0.1765)=2.5025 bits
s 3 3/17=0.1765 -log2(0.1765)=2.5025 bits
u 1 1/17=0.0588 -log2(0.0588)=4.0874 bits
d 2 2/17=0.1176 -log2(0.1176)=3.0874 bits
t 1 1/17=0.0588 -log2(0.0588)=4.0874 bits
Ejemplo: "Holasaludosatodos" (17 bytes)
Carcter Frecuencia Probabilidad Longitud Ideal
H 1 1/17=0.0588 -log2(0.0588)=4.0874 bits
o 4 4/17=0.2353
-log2(0.2353)=2.0874 bits
l 2 2/17=0.1176 -log2(0.1176)=3.0874 bits.
a 3 3/17=0.1765 -log2(0.1765)=2.5025 bits
s 3 3/17=0.1765 -log2(0.1765)=2.5025 bits
u 1 1/17=0.0588 -log2(0.0588)=4.0874 bits
d 2 2/17=0.1176 -log2(0.1176)=3.0874 bits
t 1 1/17=0.0588 -log2(0.0588)=4.0874 bits
H = 3 * 0.0588 * 4.0874 + 0.2353 * 2.0874 + 2 * 0.1176 * 3.0874 + 2 * 0.1765 * 2.5025
Ejemplo: "Holasaludosatodos" (17 bytes)
H = 2.82176233222 bits x byte.
H * 17 = 47.96 bits.
El string en cuestin no puede ser comprimido en
menos de 47.96 bits, es decir unos 6 bytes. Este es
el lmite terico e ideal al cual puede comprimirse
nuestra fuente.

You might also like