RUIDO: Expresin genrica utilizada para referirse a las distorsiones originadas en forma externa al proceso de comunicacin Teora de Claude E. Shannon Modelo cientfico del proceso de comunicacin Formulacin de leyes matemticas de Hartley (gensis de la TI) Fuente Transmisor Canal Receptor Destino Clasificacin de Fuentes Por la naturaleza generativa de sus mensajes una fuente puede ser aleatoria o determinstica. Por la relacin entre los mensajes emitidos una fuente puede ser estructurada o no estructurada ( o catica). Clasificacin de Fuentes Existen varios tipos de fuentes. Para la teora de la informacin interesan las fuentes aleatorias y estructuradas. Una fuente es aleatoria cuando no es posible predecir cual es el prximo mensaje a emitir por la misma. Una fuente es estructurada cuando posee un cierto nivel de redundancia. Una fuente no estructurada o de informacin pura es aquella en que todos los mensajes son absolutamente aleatorios sin relacin alguna ni sentido aparente, este tipo de fuente emite mensajes que no se pueden comprimir, un mensaje para poder ser comprimido debe poseer un cierto nivel de redundancia, la informacin pura no puede ser comprimida pues perderamos un grado de conocimiento sobre el mensaje. Clasificacin de Fuentes Fuente no-estructurada. Fuente Estructurada. Clasificacin de Fuentes Las fuentes digitales se suelen clasificar segn la relacin que tenga un smbolo del alfabeto: Fuentes sin memoria: los smbolos son estadsticamente independientes entre s. De esta manera, los smbolos que hayan aparecido hasta el momento no van a condicionar al smbolo presente ni a posteriores. Fuentes con memoria: la aparicin de los smbolos no es estadsticamente independiente. Es decir, si han aparecido M1 smbolos, el smbolo M- simo est condicionado por los anteriores. Distintos tipo de cdigos, Cdigos decodificables Un cdigo es una representacin binaria de un cierto mensaje, el proceso de codificacin y decodificacin es simple e intuitivo, el codificador recibe un mensaje "m1" y emite un cdigo, el decodificador recibe un cdigo y emite un mensaje "m2", considerando que nuestros codificadores pretendern no perder informacin debemos pedir que m1 sea igual a m2, es decir que el cdigo es decodificable. Un cdigo es decodificable s y solo s un cdigo solo puede corresponder a un nico mensaje. Ejemplo: Sea el siguiente esquema de codificacin: a=0 b=01 c=10 Si el decodificador recibe el cdigo: "0010" no puede distinguir si el mensaje original fue "aba" o "aac", ya que puede interpretarlo como 0-01-0 o como 0-0-10 Este tipo de cdigo no-decodificable se denomina "libre de prefijo", para construir cdigos libres de prefijo para un alfabeto puede usarse casi cualquier funcin, aunque todo el proceso de codificacin en s deja de tener sentido pues no es posible decodificar correctamente los mensajes. Cantidad de Informacin Definicin El nmero mnimo n de elementos codificados en binario necesarios para identificar el mensaje entre un total de N mensajes posibles. Si P = 1/ N (relacin inversa proporcional de ocurrencia del mensaje) Con slo tres preguntas ms o menos inteligentes podemos pasar de la incertidumbre total a la certeza: Pregunta 1: Est entre la opcin 1 y la 4? S Pregunta 2: Est entre la opcin 1 y la 2? No Pregunta 3: Es la opcin 4? No Se acaba la indeterminacin! Ejemplo del Mago Combinacin 1 Combinacin 5 Combinacin 2 Combinacin 6 Combinacin 3 Combinacin 7 Combinacin 4 Combinacin 8 Continuacin Ejemplo del Mago / Tensin Dada una Fuente de informacin y un canal de comunicacin, existe una tcnica de codificacin tal que la informacin puede ser transmitida sobre el canal y con una frecuencia de errores abitrariamente pequea a pesar de la presencia de ruido Ejemplos A 0 0 0 B 0 0 1 C 0 1 0 D 0 1 1 E 1 0 0 F 1 0 1 G 1 1 0 H 1 1 1 Letra Cdigo Binario 2 n Estados posibles codificados n = 3 2 3 = 8 PILA TENSION ELECTRICA 1 0 Si existen N posibilidades, todas igualmente probables, la cantidad de informacin ser igual a Log 2 N. Es, entonces, el Log 2 N la funcin matemtica que nos indicar la cantidad de bits de informacin de una situacin determinada. Esto puede esquematizarse de la siguiente manera: Continuacin Ejemplo del Mago / Tensin Continuacin Ejemplo del Mago / Tensin Antes de comenzar la transmisin, el receptor tiene una incertidumbre total de cual ser el mensaje a recibir. Como la fuente tiene "8" elementos (letras A a la H), y como todas tienen la misma probabilidad de emitirse (sistema equiprobable), la incertidumbre tiene una probabilidad de: P = Incertidumbre del receptor 1/8 = 0.125 = 12,5% Continuacin Ejemplo del Mago / Tensin Supongamos, que la primera medicin indica ausencia de tensin elctrica, o sea que ha llegado un "0". Ahora sabemos que la letra estar entre las cuatro primeras, ya que ellas son las que comienzan con "0". P = Incertidumbre del receptor 1/8 = 0.125 = 12,5% Si el 1 bit e 0 (inexistencia de tensin elctrica) A B C D Candidatos P = 1/4 = 0,25 = 25% Continuacin Ejemplo del Mago / Tensin Si en el segundo periodo, medimos y nos encontramos que existe una tensin elctrica, estamos ante la presencia de un "1", con lo cual se reduce la incertidumbre por cuanto solo hay dos posibilidades: Si el 2 bit, es 1 (existe tensin elctrica) C D Candidatos P = 1/2 = 0,5 = 50% Continuacin Ejemplo del Mago / Tensin Suponemos que despus de la tercer medicin obtenemos que existe ausencia de tensin elctrica, o sea que lleg otro "0", estaremos ante la nica alternativa posible: C = 010 En este caso la probabilidad ser: Al recibir el 3 bit, se alcanza certidumbre total P = 1/1 = 1 = 100% Resumen Ejemplo del Mago / Tensin P = Incertidumbre del receptor 1/8 = 0.125 = 12,5% Si el 1 bit e 0 (inexistencia de tensin elctrica) A B C D Si el 2 bit, es 1 (existe tensin elctrica) C D Al recibir el 3 bit, se alcanza certidumbre total P = 1/1 = 1 = 100% Candidatos P = 1/4 = 0,25 = 25% Candidatos P = 1/2 = 0,5 = 50% La figura nos muestra una situacin con 8 posibilidades, cada una con una misma probabilidad de 1/8. Para poder determinar una posibilidad especfica de estas 8, la eleccin requiere como mnimo 3 etapas, cada una de las cuales arroja un bit de informacin. A) El primer bit corresponde a la eleccin entre las primeras cuatro o segundas cuatro posibilidades. B) El segundo bit corresponde al primer o segundo par de las 4 posibilidades ya elegidas. C) El ltimo bit determina el primer o segundo miembro del par y especifica la posibilidad elegida. Como vemos, el primero de bits que se requieren en esta situacin para determinar una posibilidad especfica es de 3, lo que corresponde al Log 2 8 Continuacin Ejemplo del Mago / Tensin Incertidumbre La llegada de un smbolo duplica la probabilidad, disminuyendo en la misma proporcin la incertidumbre de la llegada de un smbolo. Podemos decir que la incertidumbre era: Antes de comenzar a transmitir era = 1 = 100 %. Despus de la llegada del primer smbolo (0) = 0,75 = 75 %. Despus de la llegada del segundo smbolo (1) = 0,75 = 50 %. Despus de la llegada del tercer smbolo (1) = 0 = 0 %. O sea, con cada llegada de smbolo la incertidumbre se reduce, hasta llegar a la incertidumbre nula, cuando la probabilidad es del 100%. Generalizacin De acuerdo a la teora de la informacin, puede definirse la cantidad de informacin de un mensaje "I", como: "el nmero mnimo "n" de elementos codificados en binarios necesarios para identificar el mensaje entre un total de "N" mensajes posibles". O sea: Formalizacin de la cantidad de Informacin N = Mensajes posibles n = Elementos codificado en binarios I = n = Log 2 N Informacin N = 1/P I = log 2 N I = Log 2 1/P I = Log 2 P -1 I = -1 Log 2 P Para eventos igualmente probables la probabilidad: P = N E Cantidad de elementos Cantidad de variables UNIDAD = bit Informacin N = 1/P I = log 2 N I = Log 2 1/P I = Log 2 P -1 I = -1 Log 2 P Lo cual significa que la informacin de un evento x es ms grande si la probabilidad de ese evento es ms pequea. En otras palabras, un evento tiene ms informacin si es ms difcil de adivinar UNIDAD = bit 1 c i p i 0 0 Ejemplo I = Log 2 N E [ bit ] Ejemplo: Moneda: E = 1 (moneda) Cantidad de elementos N = 2 (cara/seca) Cantidad de variables I = Log 2 2 1 = 1 [ bit ] Ejercicio# 1 Gnero: 1 bit La poblacin humana es casi exactamente pareja entre hombres y mujeres. p masculino = p femenino = 1 2 ,as que saber el gnero es: I x = log 2 1 2 = 1 bit. Aunque parezca poco, el gnero es comnmente independiente de otros tipos de informacin, as que puedes aadir fcilmente y seguramente 1 bit de informacin preguntando por el sexo. Ejercicio#2 Determinar la parte entera del nmero x = log 2 11 Para determinar la parte entera se buscan las potencias de 2 entre las que se encuentra el nmero 11 2 x < 11 < 2 x Elegir la parte entera Respuesta# 2 Para determinar la parte entera se buscan las potencias de 2 entre las que se encuentra el nmero 11, estas son 2 3 y 2 4 , es decir, se verifica 2 3 < 11 < 2 4 . Tomando logaritmos en base 2 se mantiene la desigualdad, ya que la base es mayor que 1, as log 2 2 3 < log 2 11 < log 2 2 4 , es decir, 3 < log2 11 < 4, de donde se deduce que la parte entera de log 2 11 es igual a 3. Ejercicio# 3 Calculemos la cantidad de informacin obtenida cada vez que se realiza una lectura de la hora de un reloj, suponiendo que esta se hace en horas y minutos (hh:mm) Respuesta = 0,000694444 Ejercicio# 4 Se tiene un libro de 256 pginas, que se abre por una al azar. El conocimiento de esa pgina nos proporciona la siguiente cantidad de informacin: Respuesta = 1 128 I = Log 2 1/P
I = Log 2 1/0,0078125
I = 8 bits de informacin
Efectivamente, si planteamos preguntas de la forma: se
encuentra en la primera mitad?, haran falta, como mnimo, 8 preguntas de este tipo para poder deducir la pgina.
Como cada respuesta nos proporciona 1 bit de informacin,
la cantidad de sta que se nos habr proporcionado hasta llegar al final ser de 8 bits. Entropa La entropa es como la cantidad media de informacin que contienen los smbolos transmitidos. Palabras como el o que son los smbolos ms frecuentes en un texto pero, sin embargo, son los que aportan menos informacin. El mensaje tendr informacin relevante y mxima entropa cuando todos los smbolos son igualmente probables. Entropa Shannon formul el concepto matemtico de entropa, un concepto que provee una medida de la cantidad de informacin promedio producida por cada smbolo de una fuente discreta sin memoria. De acuerdo con la entropa de una fuente sin memoria con alfabeto de fuente L conteniendo K smbolos est dada por: Entropa Compresin Para codificar los mensajes de una fuente intentaremos pues utilizar menor cantidad de bits para los mensajes ms probables y mayor cantidad de bits para los mensajes menos probables de forma tal que el promedio de bits utilizados para codificar los mensajes sea menor a la cantidad de bits promedio de los mensajes originales. Esta es la base de la compresin de datos. Entropa Compresin - Objetivo Shannon demostr, oportunamente que no es posible comprimir una fuente estadsticamente mas all del nivel indicado por su entropa.. Ejemplo: Sea el siguiente string/archivo/fuente: "Holasaludosatodos" (17 bytes) Carcter Frecuencia Probabilidad Longitud Ideal H o l a s u d t Ejemplo: "Holasaludosatodos" (17 bytes) Carcter Frecuencia Probabilidad Longitud Ideal H 1 o 4 l 2 a 3 s 3 u 1 d 2 t 1 Ejemplo: "Holasaludosatodos" (17 bytes) Carcter Frecuencia Probabilidad Longitud Ideal H 1 1/17=0.0588 o 4 4/17=0.2353 l 2 2/17=0.1176 a 3 3/17=0.1765 s 3 3/17=0.1765 u 1 1/17=0.0588 d 2 2/17=0.1176 t 1 1/17=0.0588 Ejemplo: "Holasaludosatodos" (17 bytes) Carcter Frecuencia Probabilidad Longitud Ideal H 1 1/17=0.0588 -log2(0.0588)=4.0874 bits o 4 4/17=0.2353 -log2(0.2353)=2.0874 bits l 2 2/17=0.1176 -log2(0.1176)=3.0874 bits. a 3 3/17=0.1765 -log2(0.1765)=2.5025 bits s 3 3/17=0.1765 -log2(0.1765)=2.5025 bits u 1 1/17=0.0588 -log2(0.0588)=4.0874 bits d 2 2/17=0.1176 -log2(0.1176)=3.0874 bits t 1 1/17=0.0588 -log2(0.0588)=4.0874 bits Ejemplo: "Holasaludosatodos" (17 bytes) Carcter Frecuencia Probabilidad Longitud Ideal H 1 1/17=0.0588 -log2(0.0588)=4.0874 bits o 4 4/17=0.2353 -log2(0.2353)=2.0874 bits l 2 2/17=0.1176 -log2(0.1176)=3.0874 bits. a 3 3/17=0.1765 -log2(0.1765)=2.5025 bits s 3 3/17=0.1765 -log2(0.1765)=2.5025 bits u 1 1/17=0.0588 -log2(0.0588)=4.0874 bits d 2 2/17=0.1176 -log2(0.1176)=3.0874 bits t 1 1/17=0.0588 -log2(0.0588)=4.0874 bits H = 3 * 0.0588 * 4.0874 + 0.2353 * 2.0874 + 2 * 0.1176 * 3.0874 + 2 * 0.1765 * 2.5025 Ejemplo: "Holasaludosatodos" (17 bytes) H = 2.82176233222 bits x byte. H * 17 = 47.96 bits. El string en cuestin no puede ser comprimido en menos de 47.96 bits, es decir unos 6 bytes. Este es el lmite terico e ideal al cual puede comprimirse nuestra fuente.