深入浅出:信息和信息熵原理

信息是生活中的我们必不可少的元素,但是信息如何定义,如何去度量信息的多少,以及度量信息的不确定性,是一个抽象的难题,香农在1948年提出的信息理论解决了这个问题。

香农

这篇文章我会用浅显的例子来解释,什么是信息,什么是信息熵,以及信息熵公式的原理。

我不会一开始就堆砌一些抽象的概念,会一步一步用例子来解释。

定性分析

举例解释各个概念的含义

信息、信息量、自信息、信息熵

总的来说:当一件事情(宏观态)有多种情况(微观态)时,这种事情对某人(观察者)而言具体是哪种情况(微观态)的不确定性叫做信息熵

所以信息熵是描述信息的不确定性的,而且常常是指宏观态的不确定性,是一个系统的不确定性

而信息是什么呢?

信息就是用来消除该人对这件事情的不确定性

熵和信息我们可以看到,是一对相反的概念:消除熵 == 获取信息

那如何去度量信息熵多少呢,我们常常用信息量来度量,信息熵多意味着信息量多,换句通俗的例子来说就是,比如一个人说了一句深奥的话,可能会表达很多意思,自己丈二摸不着头脑,吐槽了一句:“这句话信息量有点大哦”,这里的信息量和熵问我们提到的差不多类似。

那自信息是什么呢?自信息更像信息熵的子集,也就是微观态所对应的信息量,对应的是每个事件。

所以 信息熵是指系统所具有的信息量,而自信息是指个体(微观态)具有的信息量。

宏观态、微观态、观察者

比如我们用传奇人物小明来举例子,小明不会一道数学题,数学题有ABCD四个选项。正确答案(宏观态)是A B C D(四个微观态)哪个答案的不确定性就是信息熵,每个选项所对应的不确定性叫做自信息

而例子中:

正确答案就是 宏观态,宏观态是不考虑内部细节的状态

每个选项就是 微观态,微观态是考虑内部细节的状态

小明叫做观察者

信息熵在 A B C D等概率时,最大,即:P(A) = P(B)=P(C)=P(D)=\frac{1}4

为什么呢,我们思考一下,加入四个的概率都相等,对小明来说,哪个选项都是一样的,这就相当于纯机选了,信息的不确定性最大,即信息熵最大。(这里涉及到一个重要原理:最大熵原理,后面我会写相关的文章)

当某个选项小明完全确定的时候,信息熵最小,即信息混乱程度最低。

消除不确定性的信息的三种类型

本质都是调整每个情况(微观态)的概率

调整微观态概率

比如小红告诉小明,一般可能性是选C选项,那么ABCD的可能性相对应调整为:P(C)=\frac{1}2,P(A)=P(B)=P(D)

排除某微观状态

比如小红告诉小明,C一定是错的,ABCD概率又相对应调整。

确定情况

比如小红告诉小明,确定是选C。

噪音、数据、信息

比如,小红告诉小明,选项是 ABCD其中一种,这哪里受得了不是废话嘛。

为什么小明恼羞成怒?因为其实这句话不包含任何信息,不能够消除不确定性。

这种被称为噪音,不能称为信息,而 数据 = 信息 + 噪音

信息的性质

同一个观察者,对同一件事情接收到的信息与用于传递信息的信号形式无关

比如

  • 视觉: 小红给了小明一个写有C的纸条

  • 触觉:小红踢了小明 三下椅子

  • 听觉:直接告诉小明 选C

信息是相对于观察者的

比如 小红会这道题 不管告不告诉小红正确答案,她都会选择C,信息熵为0

但是 对于小明就是具有不确定性,信息熵就不为0

虽然信息是相对于观察者的,但是信息是客观存在的,不会因为观察者的主观意识改变,比如正确答案就是C

信息是相对于宏观态的

比如 小明如果是从 ABCD中选

或者从 AB 或者 CD中选

信息的不确定性是不同的

概率和熵

概率大家都接触的很多了,概率是什么,概率是用于描述一个事件发生的确定性的,比如,小明机选正确的概率是\frac{1}4

而熵是什么呢?

之前也说了,熵是信息的不确定性。

上面部分讲述了 信息、信息熵的定性考量,下半部分,会从定量来描述,信息和信息熵。


定量分析

  • 信息是如何量化的?
  • 为什么信息还有单位?

几个问题

  • 我们来考虑一个问题:什么东西有单位?

    那太多了吧,桌子的长度,人的体重等等

  • 那我们如何测量呢?

    简单啊,在测量桌子的长度的时候,用一把尺子来量,也就是一个参照物。

  • 那尺子又是从哪里来呢?

    其实尺子上的长度是人规定的:1cm有多长,1m有多长都是人们约定好的,共同认可的。

测量参照物

所以,要测量信息,其实也是要用一个参照物,这个参照物就是:硬币!

用硬币就能测量信息,是不是很神奇呢?我们来看看硬币是如何做到的吧!

信息我们说了 信息就是消除不确定性的 那我们量化它,我们就用另一个事件的不确定性作为参照物,也就是我们的硬币

要测量某个事件的不确定性 就相当于 测量多少个硬币的不确定性。

这里的多少个 就是信息量 也就是度量信息多少的量,单位为bit

具体测量方法

还是通过例子来讲解

比如我们测量我的体重,我站在一个天平上面,参照物就是一堆1kg的砝码,我的体重就是最后平衡时,砝码的个数kg。就是用待测物体的质量除以参照物体的质量。

但是信息可以这么测量吗,不行!

因为我们要测量某个事件的不确定性 就相当于 测量多少个硬币的不确定性。而对于硬币而言,不确定性是一个硬币对应的是正反两面,这两个等概率的事件。

所以我们测量一个事件的不确定性就是测量事件有多少个等概率的事件。

我们设为相当于的等概率事件为 m个。

硬币的个数我们设为 n个。

信息熵我们设为 entropy。我们上面说了信息熵就是硬币的个数。所以 entropy = n

一个硬币对应两个等概率事件 所以 n个硬币相当于2^n个等概率事件。

所以 m = 2^n,所以entropy = n = \log_2{m},信息熵我们就算出来了。等等没完啊,怎么算事件一共有多少个等概率事件呢?

我们知道 假设 一个事件的概率是\frac{1}{10},那相当于是在十个概率事件中取一个事件的概率,那么一个事件的概率为p_i,是不是对应的等概率事件个数为\frac{1}{p_i}

所以我们计算一个事件的等概率事件数 实际上得先算出它的概率。

小明选选择题假如说他对知识一无所知,那 ABCD是不是概率都为 \frac{1}{4},那信息熵选A、B、C、D都相同概率即P(A)=P(B)=P(C)=P(D)=\frac{1}4,每个事件的等概率事件对应硬币数个数为log_2(\frac{1}4),总的硬币个数为四个的加权平均也就是数学期望,也就是自信息对应的信息量只和。最后得到,硬币数为 2 即信息熵为2bit。

总结来说公式为

  • entropy = \sum p_ilog_2\frac{1}{p_i}=-\sum p_ilog_2p_i
  • 自信息 = I(P_i)= – \log_2(P_i)

这就是信息熵的公式的由来,这样你就测量了信息的不确定性。

由一块硬币就能度量世间万物的信息

信息熵原理你学会了吗?

Default image
LIU
代码是躯体,思想是灵魂

Leave a Reply