Información y entropía

Resumen

Este artículo tendrá una extensión algo mayor de la habitual, debido a que la información es al fin y al cabo la materia que recorre, organiza y nutre esta web en toda su extensión, y merece que le dediquemos una atención especial. Aunque no requiere ningún conocimiento matemático más avanzado que el de la educación secundaria obligatoria, para quien quiera evitar algunas abstracciones formales, resumiremos aquí el sentido de los gráficos a los que se refiere el artículo.

Así que la probabilidad es la clave de la entropía y de la información. ¿Son entonces, lo mismo? Sí y no. Veamos: ¿cuál es la condición necesaria del valor de la información? Si la información no aportase nada que no supiéramos, no podría aportar ningún valor, sería estrictamente redundante. Por tanto, para añadir valor debe cumplir necesariamente la condición de aportar algo que antes no se sabía o no se sabía que se sabía, lo cual nos lleva necesariamente, al menos en un espacio acotado, a la reducción de la incertidumbre. De modo que obtendremos tanta más información cuanta más incertidumbre podamos reducir.

Aquí veremos que la entropía, concepto de la Física que alude al desorden de un sistema físico, se puede entender como equivalente a la información, en el sentido de que la entropía es justamente la cantidad de información que necesitamos para movernos con certeza dentro de un sistema con diversos estados posibles. En este sentido, la entropía, a partir de una consideración equiprobable de los estados, constituye la cota superior de la incertidumbre para una forma inteligente de resolver un problema. En cuanto haya algún desequilibrio en ese punto (estados desigualmente probables), ese hecho introduce información sobre el sistema, que necesariamente comporta una reducción de la incertidumbre.

Así, el primero de los dos gráficos que presentamos en este artículo (el segundo no añade nada sustantivo al primero, puesto que la segunda curva resulta directamente de los datos que dibujan la primera, por agregación sucesiva, -integración-) contiene el comportamiento de la curva de información o entropía a la hora de tomar una decisión binaria (compro o vendo unos valores; lanzo o no un producto al mercado; invierto o no en un activo…), a partir de la probabilidad de que se de uno de los dos estados posibles del sistema (que podemos resumir en: ganar o no ganar en la operación).

Entropía de una elección binaria

Entropía de una elección binaria

Se observa sin dificultad que el estado de máxima incertidumbre se alcanza cuando la probabilidad de ganar con una decisión o su contraria es la misma (0,5 -tengamos en cuenta que la probabilidad varía entre 0 y 1 y que la suma de las probabilidades de los dos estados posibles es 1) y que la incertidumbre decrece hasta tender a un valor nulo en los extremos. Intuitivamente, es fácil entender que cuando un suceso tiene una probabilidad de 0, se convierte en un suceso imposible y su contrario en un suceso seguro, y viceversa, por tanto, en los extremos no hay ninguna incertidumbre, sabemos lo que va a suceder y lo que no puede suceder.

Por eso, en las distribuciones de probabilidad, cuando nos referimos a un suceso (a que algo suceda o no suceda) la predicción sobre el resultado real se enfrentará a una dificultad máxima cuando hay equiprobabilidad.

Por ejemplo, podemos referirnos a cuando los votantes británicos iban a votar a favor del Brexit o lo contrario, teniendo en cuenta que la información que teníamos era que la probabilidad del voto pro-Brexit y la del voto anti-Brexit estaban casi a la par, según las encuestas. Como consecuencia la predicción a cargo de las encuestas alcanzó una dificultad máxima, debido, justamente, a que la situación era de máxima incertidumbre porque tan probable era un resultado como el contrario, aunque la medición mediante encuesta atribuyese algo más de probabilidad a uno de ellos. Esto, debido al poco conocimiento de los medios sobre estos objetos un tanto escurridizos, la probabilidad, la información, la entropía, llevó a demonizar a las encuestas como dispositivo de estimación del voto, de manera lastimosamente errónea.

La teoría matemática de la información

La información, desde que Claude E. Shannon, en 1948, la definió en términos matemáticos, en el campo de las comunicaciones, está estrechamente ligada a la probabilidad y en el fondo y en la forma coincide con la formulación de un concepto anterior, el de entropía, tal como le dio forma matemática Ludwig Boltzmann a finales del siglo XIX.

Es una forma de tratar matemáticamente dos conceptos escurridizos que, pese a la simplificación que toda reducción matemática comporta, expresa muy bien cualidades que son inteligibles para cualquier persona sin conocimientos matemáticos, mostrando, además, que información y entropía forman un par indisolublemente ligado.

Por lo que se refiere a la información entre tales cualidades destacaremos la más general, que emerge al poner en relación información y entropía. En efecto, la entropía (Shannon comenzó llamando así a la información), se identifica a menudo con el desorden en la naturaleza, y, aunque esto requiere algunas precisiones importantes (Ben-Naim), su asociación a múltiples estados del sistema sobre el que se mida, implica que el desorden creciente que le atribuye, grosso modo, el Segundo Principio de la Termodinámica, tiende a un crecimiento ilimitado del número de estados posibles del sistema, los cuales tienden a su vez a ser equiprobables.

La entropía, tal como la definió inicialmente Rudolf Clasius, hacia 1850, es la cantidad de calor intercambiado por un sistema con el medio en el que está divida por su temperatura absoluta, lo que sitúa a la entropía lejos de la información, todavía.

Pero, Boltzmann, comprendió la relación entre entropía y estados del sistema, en una línea que terminó fundando lo que después se conoció como física-estadística. Así, definió la entropía de un sistema mediante la siguiente fórmula:

\(S=∑klnΩ\)

Donde S es la entropía del sistema, k es una constante (la constante de Boltzmann, que representa la relación entre temperatura absoluta y energía; aquí no necesitamos profundizar en esta cuestión) y Ω es el número de microestados posibles del sistema, que en esta fórmula son indistinguibles.

La forma en que Shannon definió la información (pongamos de un sistema, para que no nos distraigan otros elementos) fue la siguiente:

\(H= -∑_1^Np_i log_2 p_i\)

Donde N es el número de estados posibles del sistema y pi es la probabilidad del estado i.

Información y probabilidad

Como empezamos diciendo, Shannon vinculó información y probabilidad, lo que queda bien a la vista en la fórmula anterior.

¿Pero las dos fórmulas son realmente equivalentes? La de Shannon introduce la probabilidad, pero la de Boltzmann no. ¿Cómo se establece, entonces, la equivalencia?

Para aclarar este punto, vamos a desarrollar la fórmula de Shannon, teniendo en cuenta las propiedades de la función logaritmo. En primer lugar, tenemos un signo negativo antes del sumatorio. Por la propiedad distributiva del producto respecto de la suma, podemos trasladar ese signo al interior del sumatorio, con tal de que lo apliquemos a todos y cada uno de sus términos, con lo cual la fórmula quedaría como sigue.

\(H= ∑_1^N-p_i log_2 p_i\)

Ahora, por las propiedades conmutativa y asociativa del producto, en cada término sumatorio, podemos hacer el siguiente cambio:

\(H= ∑_1^Np_i (-log_2 p_i)\)

La función logaritmo tiene una propiedad importante para el caso, a saber: el logaritmo de un cociente es igual a la diferencia de los logaritmos de numerador y denominador; además, el logaritmo, cualquiera que sea su base (por tanto, también en este caso, en el que la base es 2), cuando se aplica a 1, se anula (log(1)=0). Hagamos una nueva transformación de la fórmula, sumando en el interior de cada paréntesis 0 (como el 0 es neutro para la suma, podemos hacer esto sin alterar ningún resultado).

\(H= ∑_1^Np_i (0-log_2 p_i)\)

Ahora, aplicando una de las propiedades anteriores del logaritmo, podríamos poner el 0 como log(1).

\(H= ∑_1^Np_i (log_2 1-log_2 p_i)\)

Y, aplicando la propiedad del logaritmo del cociente, podemos transformar cada diferencia de logaritmos dentro del sumatorio en el logaritmo de un cociente.

\(H= ∑_1^Np_i log_2 1/p_i \)

Así, queda de manifiesto que la información es proporcional al logaritmo del inverso de la probabilidad de cada estado (un estado puede ser que aparezca o no un signo, un mensaje o un resultado cualquiera, por ejemplo, en un experimento o en un juego). Por tanto, la información es proporcional a la probabilidad y a una función de su inversa.

¿Y la entropía? La fórmula de la entropía tiene algunas diferencias. En primer lugar la entropía tiene un factor que es una constante, en lugar de una probabilidad; en segundo lugar, la base del logaritmo no es 2 sino el número e (2’71828, aproximadamente), pero no vamos a detenernos por el momento en este punto; en tercer lugar, en la fórmula de la entropía, en lugar de probabilidad, como objeto al que se aplica el logaritmo, encontramos una magnitud que no es una probabilidad, el número de estados posibles de un sistema. Veamos este último elemento con detalle.

Cuando presentamos la fórmula de Boltzmann, llamamos la atención sobre el hecho de que en aquella no se hacía distinción alguna entre los estados. En términos de probabilidad (y es pertinente plantearlo en dichos términos, a partir de la expresión “estados posibles”), eso significa que, implícitamente, los estamos tratando como equiprobables. Pero, si tenemos N estados (estamos llamando a , N, para ver mejor la analogía entre las fórmula) y son equiprobables, la probabilidad de cada estado tiene que ser 1/N, en virtud de las propiedades de la probabilidad, que exigen que la suma de las probabilidades de todos los sucesos posibles (y disjuntos, lo cual está también implícito en la formulación de Boltzmann) sea 1 (1/N, N veces, es N/N=1).

En virtud de estas consideraciones, y atendiendo de nuevo a las propiedades de la función logaritmo, la fórmula de Boltzmann podría transformarse del siguiente modo:

\(S=∑klnΩ= ∑_1^NklnN=  ∑_1^N0+klnN=  ∑_1^N-k(0-(lnN)=  ∑_1^N-k(ln1-lnN)=  ∑_1^N-kln 1/N= -∑_1^Nkln 1/N \)

Y ahora sí sabemos que en realidad las dos fórmulas integran la probabilidad como componente básico del cálculo, con la particularidad de que en la fórmula de la entropía se da por sentado que los estados son equiprobables y su probabilidad es 1/N o con la notación de Boltzmann, lo que es lo mismo, 1/ Ω.

Así que la probabilidad es la clave de la entropía y de la información. ¿Son entonces, lo mismo? Sí y no. Veamos: ¿cuál es la condición necesaria del valor de la información? Si la información no aportase nada que no supiéramos, no podría aportar ningún valor, sería estrictamente redundante. Por tanto, para añadir valor debe cumplir necesariamente la condición de aportar algo que antes no se sabía o no se sabía que se sabía, lo cual nos lleva necesariamente, al menos en un espacio acotado, a la reducción de la incertidumbre. De modo que obtendremos tanta más información cuanta más incertidumbre podamos reducir.

Así, bien podríamos considerar la entropía como equivalente de la información en el sentido de que la entropía es justamente la cantidad de información que necesitamos para movernos con certeza dentro de un sistema con diversos estados posibles. En este sentido, la entropía, a partir de una consideración equiprobable de los estados, constituye la cota superior de la incertidumbre para una forma inteligente de resolver un problema. En cuanto haya algún desequilibrio en ese punto (estados desigualmente probables), ese hecho introduce información sobre el sistema, que necesariamente comporta una reducción de la incertidumbre.

Ejemplos

Vamos a suponer el caso de un juego, en el cual se trata de averiguar lo más rápidamente posible un suceso cierto.

El conjunto de sucesos posibles es, por ejemplo, que hay 4 cajas, cada una con un premio diferente, uno de los cuales es mucho más valioso que el resto, y queremos saber en qué caja está el premio más valioso. Para ello, tenemos las cajas dispuestas en un cuadrado de 2 x 2 y podemos hacer cuantas preguntas queramos para llegar a conocer con certeza la solución, siempre que la pregunta sólo se pueda responder con Sí o No. La cantidad de preguntas será la medida de la velocidad del proceso.

Por tanto, la máxima velocidad posible sería la resultante de no hacer ninguna pregunta y señalar directamente una caja, lo cual es equivalente en términos del resultado a preguntar si es esa caja, así que es equivalente a hacer una sola pregunta. Si no tenemos ninguna razón para suponer que hay alguna caja en la que sea más probable o menos probable que esté el premio grande, trabajaremos con la hipótesis de que la probabilidad a priori es igual para todas las cajas. Así, esta probabilidad será 1/N=1/4.

Si el objeto buscado estuviese en la caja nº 3, lo más rápido sería señalar a la primera esa caja, pero, sin información previa, 3 de cada 4 veces nos habremos equivocado. Si lo miramos desde el punto de vista de la incertidumbre, en promedio, una vez habremos despejado toda la incertidumbre en un solo paso y 3 habremos fallado, incrementando la probabilidad de acertar en el siguiente paso a 1/3; si continuásemos con la misma táctica, 1 vez de cada 3 acertaremos, agotando el proceso en 2 pasos, y 2 de cada 3 fallaremos, incrementando ahora la probabilidad de acertar a ½; en el tercer paso, necesariamente, con un solo grado de libertad, preguntando por cualquiera de las 2 cajas, sabremos en cual de ellas está el objeto buscado.

Aplicando la fórmula de Shannon, en su última transformación,

\(S=∑klnΩ= ∑_1^NklnN=  ∑_1^N0+klnN=  ∑_1^N-k(0-(lnN)=  ∑_1^N-k(ln1-lnN)=  ∑_1^N-kln 1/N= -∑_1^Nkln 1/N \)

(el número al que hay que elevar 2 para obtener 4 como resultado es 2).

Según esto, una elección inteligente debería llegar a la solución en la búsqueda de la caja donde está el objeto de referencia en 2 pasos, nunca en más. Es fácil ver que si dividimos los sucesos en dos partes iguales en cada paso, agotamos las posibilidades justamente en 2 pasos. Si preguntamos, por ejemplo, ¿lo que buscamos está en las dos cajas a la derecha? Sea cual sea la respuesta, habremos despejado la mitad de la incertidumbre, pues sabremos que hay dos cajas que debemos descartar, para centrarnos en el siguiente paso en las otras 2. La siguiente pregunta podría ser, ¿está en la caja de arriba? Sea cual sea la respuesta, sabremos en qué caja está y no necesitaremos dar ningún paso más. Ciertamente, este método no permite ahorrar ningún paso, pero a la larga es más eficaz que el de apuntar directamente a una caja. Y la diferencia es tanto mayor cuanto mayor sea la cantidad de estados posibles del sistema. Si en lugar de 4 cajas tuviésemos 8, la probabilidad de acertar a la primera señalando una caja es de 1/8, es decir, justamente la mitad que cuando teníamos cuatro cajas. Sin embargo, la entropía de Shannon señala que el número máximo de pasos que necesitaremos en una búsqueda racional bien planificada es de

\(S=∑klnΩ= ∑_1^NklnN=  ∑_1^N0+klnN=  ∑_1^N-k(0-(lnN)=  ∑_1^N-k(ln1-lnN)=  ∑_1^N-kln 1/N= -∑_1^Nkln 1/N \)

es decir, en 3 pasos, sólo uno más que antes, tendremos la solución. Podemos comprobarlo utilizando el mismo método: en el primer paso, preguntaremos si el objeto está en alguna de las 4 cajas de la izquierda; sea cual sea la respuesta, descartaremos ya cuatro cajas. Como ya sólo tenemos 4 cajas, estamos en la situación del problema anterior, cuyo coste era de 2 pasos, por lo que el coste total máximo racional será de 3 pasos, tal como indica la entropía de Shannon.

No es difícil comprobar que el número de pasos se incrementa en una unidad cada vez que multiplicamos por 2 el número de estados. Así, la probabilidad de acertar a la primera decrece según el inverso (en la operación producto) de las potencias de 2 (1/2N), mientras que la entropía, o pasos necesarios para alcanzar la solución con seguridad, es decir, para despejar toda la incertidumbre, crece aritméticamente, en una unidad por cada duplicación del número de estados. Esto plantea la paradoja aparente de que, si bien hay un estado que despeja completamente la incertidumbre, (es el que contiene toda la información que necesitamos y es equivalente a la del resto de estados agregados -lo mismo da saber en qué caja está el objeto buscado, entre 8 cajas, que saber en qué siete cajas no está-), la forma menos costosa en promedio, para alcanzar la solución es dividir los estados en mitades y descartar una mitad cada vez.

Este contraste entre la velocidad máxima posible y la velocidad máxima garantizada evidencia cuán importante va a ser conocer algo (es decir, la información que nos permite conocer algo) que cambie la probabilidad de encontrar lo que buscamos.

Por ejemplo, supongamos que el detective Hércules Poirot, de las novelas de Agatha Christie, se hallase en una habitación cerrada con 16 personas y un cadáver, cuyo asesino necesariamente debe ser una de esas 16 personas. Sin información, Mr. Poirot tendría una probabilidad de acertar a la primera de 1/16 o lo que es lo mismo 1/24.

Pero, supongamos que estas personas, de las que no sabemos nada a priori en cuanto a su relación con el crimen, sabemos otras cosas, tales como si son hombres o mujeres (pongamos que 8 son hombres y 8 son mujeres), o su raza (pongamos que hay 12 personas de piel clara y 4 de piel oscura, dos de estas últimas del sexo femenino). Ahora, resulta que Mr. Poirot, con su proverbial agudeza, detecta que el crimen no ha podido cometerlo ninguna de las mujeres. Con esta información, despeja una parte de la incertidumbre, porque ya puede descartar a todas las mujeres y quedarse sólo con los hombres, de los cuales sabemos ahora que son 8, 6 de ellos de piel clara y 2 de piel oscura. Si ahora Mr. Poirot concluyese que el asesino tuvo que ser forzosamente una persona de piel oscura (no importa cómo podría llegar el detective a esta conclusión, pero démosla por cierta y probada), entonces, la incertidumbre se habría reducido más. Concretamente, veamos como cambia la incertidumbre:

\(H_inicial= ∑_1^161/16log_2 1/(1/16)=16*1/16*log_2 16=log_2 16=4\)

\(H_inicial= ∑_1^161/16log_2 1/(1/16)=16*1/16*log_2 16=log_2 16=4\)

\(H_(infosexo+color)= ∑_1^21/2log_2 1/(1/2)=2*1/2*log_2 2=log_2 2=1\)

Es decir, Mr. Poirot no sabe aún quién es el asesino, pero Shannon nos dice que necesita un solo movimiento (un movimiento acertado, claro está) para saber con certeza quién es el culpable. Es interesante darse cuenta de qué pasaría si la conclusión de Mr. Poirot en el segundo paso hubiese sido que el asesino tuvo que ser una persona de piel clara. Entonces, el último cálculo sería:

\(H_(infosexo+color)= ∑_1^61/6log_2 1/(1/6)=6*1/6*log_2 6=log_2 6≅2,6\)

Partiendo de la incertidumbre inicial, la información sobre el sexo la redujo en ¼ (de 4 a 3), la combinación de sexo y color, para el supuesto de un asesino de piel oscura, la redujo en ¾ (de 4 a 1), y la combinación de sexo y color, para el supuesto de un asesino de piel clara, la redujo en algo más de 1/3 (0,35; de 4 a 2,6). En definitiva, los perfiles menos frecuentes del asesino lo identifican mejor, en el sentido de la reducción de la incertidumbre o de la velocidad de aproximación a la verdad, equivalentes a la entropía del sistema, que los perfiles más frecuentes, y esto es algo que sugiere la conveniencia de fijarse en características poco frecuentes a la hora de buscar información sobre personas o sucesos, lo cual tiene implicaciones relevantes en el análisis social y económico, especialmente en el análisis del comportamiento.

El gráfico

Para terminar, vamos a ver gráficamente lo que sucede con un tipo de incertidumbre muy común, que es la que se presenta cuando tenemos que hacer una elección binaria. Por ejemplo, lanzar un producto al mercado o no hacerlo (no entraremos en la delimitación del objetivo al que esto esté asociado, pero supondremos que hay un objetivo que se cumplirá si acertamos en la decisión), o vender un puñado de bitcoins o mantenerlo…. O cualquier otra decisión.

Hay una situación de máxima entropía de los dos estados, que corresponde al caso en el que no sabemos nada acerca de la probabilidad de que suceda algo (que el negocio, tal cual lo hemos imaginado, tenga éxito o no, que el bitcoin suba o baje…). Entonces, tendremos que asignarle una probabilidad de ½ a las dos posibilidades y la entropía o cantidad de información del sistema será:

\(H= ∑_1^Np_i log_2 1/p_i  = 121/2log_211/2 = log_2 2=1 \)

En cuanto sepamos algo que nos haga pensar con fundamento que un resultado es más probable que el otro, esta cifra disminuirá, lo que significa que la incertidumbre de nuestra elección será menor, lo cual encaja completamente con la intuición. En los siguientes gráficos podemos ver cómo se comporta H para distintas probabilidades de los dos sucesos posibles mutuamente excluyentes:

Entropía de una elección binaria

Entropía de una elección binaria

En este primer gráfico, vemos cómo, cuando un suceso tiene probabilidades o bien próximas a 0 o bien próximas a 1, H sea aproxima a 0, en tanto que alcanza su máximo justo en la probabilidad 0,5 (la equiprobabilidad).

Entropía de una elección binaria. Densidad y distribución

Entropía de una elección binaria. Densidad y distribución

El segundo gráfico contiene la curva de densidad de la entropía, ya reflejada en el primer gráfico y la de distribución o integral de la primera, con una transformación de escala. La curva de distribución, suavemente sigmoidal en la forma, dibuja un crecimiento relativamente bajo en los extremos y más alto en el centro, aunque con cambios menos pronunciados que los de una distribución como la normal o la logística.

Artículos Recomendados

La Entropía

Teoría de la Información

Libros Recomendados

No se han encontrado productos.