信息论的“信息”不是你说了什么,而是你能说什么。

——坤鹏论

坤鹏论:错了!信息熵≠信息量 轻松读懂什么是信息熵-坤鹏论

整个五一,坤鹏论都在捯饬信息熵。

为什么?

本以为自己已经懂了,结果在写成文字时,却发现,原来自己对它的认知有诸多瑕疵。

一边学习、一边思考、一边写,结果文章改了又改,写下的文字好几万,但其中又大部分被直接删除掉了。

不过,苍天不负有心人,终于将信息熵给搞得比较清爽了。

这就是写作的妙处,它同实践一起,共同构筑成学习最强大的利器。

一、信息熵≠信息量

话说,一天早上,你的两位重要客户,分别给发来消息:

客户1:不后睐厚上,宫天欧睛以在,货见同一锁要,飞面耻李来米灭或。

客户2:五一佳节,我公司休息五天,如有急事给我打电话,祝节日快乐。

请问,你认为哪条消息的信息量更大?

许多人会说,当然是第二条,因为第一条是什么玩意儿,乱码吗?不是人话呀!

但是,第二条只是你认为相对第一条更有意义,只是因为你看得懂,而并非信息量更大。

并且,第二条还有不少多余的字,即使把它们去掉,留下空白,你也能猜到它们是什么。

比如:五一佳__,我__司休__五__ ,如有__事给我打____ ,祝节__快__。

你只要稍稍琢磨,就能将这些空缺补全。

所以,这段话是可压缩的。

但是,我告诉你,第一条其实是密语,里面藏着一个惊天宝藏的大秘密。

那么,你连一个字都不敢去掉。

每个字你都认识,但每个字都是神秘,每个字都是不确定的。

再让我们看看第二条消息,其中有些字虽然不是多余的,但我们猜也能猜个八九不离十,比如:

"如有急事给我打____"

汉语中以打字开头的常用三字动词并不多,放到这里可能也就“打电话”、“打招呼”等几种情况了。

我告诉你那两个字是“电话”,你肯定不会感到惊讶,所以“电话”提供的信息很少。

所以,香农说:

信息,是能够用来消除不确定性的东西。

逆香农定义的定义更香、更容易理解:信息,是确定性的增加。

那么,什么是不确定性?

不确定性用数学语言可称之为概率。

只要概率不是100%都是不确定性。

消除不确定性的过程就是将某件事的从某个概率变成1。

香农认为,这个概率变化的过程,就需要输入信息来改变。

那么,到底要输入多少信息呢?

那就要看某件事有多么不确定性,也就是还需要输入的信息量和它的概率相关。

于是,信息量与概率发生了关系。

香农的贡献就在于,他给出了计算不确定性的量化公式,就像前面所说,科技的第一步就是要能量化。

正如我们想要衡量某个物体的质量引入了克这个单位、我们想衡量时间,我们设计一秒钟这么长。

香农想要量化一条消息中可带有的信息量大小,提出了信息熵,并给出了单位——比特。

不过,要特别特别注意的是,信息熵虽然可以告诉我们可输入的信息量。

但它并不直接等于信息量,严格意义上讲,信息熵≠信息量

坤鹏论发现,就像错误地认为“熵=混乱”一样,太多人认为“信息熵=信息量”,于是也就错上加错,知识完全混乱。

坤鹏论:错了!信息熵≠信息量 轻松读懂什么是信息熵-坤鹏论

二、热力学的熵和信息论的熵

好了,理解了上面部分,也就有了信息熵的定义。

但是,还是让我们读一读严谨的定义以及它的数学公式。

统计力学中,熵度量的是一个物理系统的微观态的不确定程度,也就是处于所有可能微观态中的一种的概率。

这些可能微观态的出现概率不一定相等,所以统计力学的公式是:

坤鹏论:错了!信息熵≠信息量 轻松读懂什么是信息熵-坤鹏论

在信息论中,熵度量的是一条信息的不确定程度,即身为信源发出的所有可能信息中的一条信息的概率。

这些可能信息的出现概率不一定相等,所以香农的公式是:

坤鹏论:错了!信息熵≠信息量 轻松读懂什么是信息熵-坤鹏论

两个公式几乎一模一样,这并不是巧合。

大自然对相似问题本就给出了相似答案。

热力学的熵,讲的是系统的混乱程度,信息熵也是如此,越是看上去杂乱无章的消息,信息熵越高。

事实上,这是同一个问题,热力学中,要想减少系统的熵,就要从外部输入可用能量。

在信息论中,一条外部输入的、确定的信息会减少系统内由所有可能信息组成的集合的熵。

热力学的熵和信息论的熵,它们也有不同之处。

传统热力学中,熵被定义为对系统的宏观测定,并没有涉及概率分布,而概率分布是信息熵的核心定义。

坤鹏论:错了!信息熵≠信息量 轻松读懂什么是信息熵-坤鹏论

上面的文字,估计很难读懂,我们简化理解一下。

热力学的熵,代表着系统的无序、混乱程度。

混乱程度越大,熵越大。

信息熵,代表着事件的不确定性程度。

不确定性程度越大,信息熵越大。

让我们用几十年来最流行的信息熵的通俗例子解释一下。

假设有一个完美公正的硬币,每次抛出正面朝上的概率都是1/2。

如果你告诉我这一次抛硬币的结果是正面朝上,这个消息的不确定性程度就是:

-log₂(1/2)=1

log₂是以2为底的对数,这是初中数学学的。

如果你不会,可以搜索“Log2在线计算器”,只要输入概率就能算出结果。

这条消息的信息熵就是1比特,也就是只要再输入1比特信息,就可以消除不确定性,达到100%确定。

让我们再假设有一个不完美、不公正的硬币,它出现正面的概率高于反面的概率。

比如:反面的概率是30%,那么,出现正面的概率是70%,信息熵为:

-[0.3×log₂(0.3)+0.7×log₂(0.7)]=-[0.3×-1.74+0.7×-0.51]=0.88比特

因此,信息熵与我们肉眼见到的消息长度没有必然关系。

它描述的是这段消息中字符的不确定性(不可预测性)。

所以,一段消息中出现的各种字符越杂乱无章,越具有多样性,信息熵就越高。

比如:acbfacbfopacbacbf和acbfehijkl。

前者重复的字母多,虽然一共17个字母,其实只有6个不同的字母,它的信息熵为:

-log₂(1/6)=2.6比特

后者虽然一共只有10个字母,但是,10个字母各个不同,它的信息熵为:

-log₂(1/10)=3.3比特

当然,真实世界里,英文有26个字母,再加上一个空格,它也算字符,一共27个,如果它们是等概率被使用,每个字母平均的信息熵=-log₂(1/27)=4.75比特。

不过,实际使用中,英语字母的使用频率是不一样的。

有些字母会明显高于其他字母,这就是典型的幂律分布,到语言这个领域就叫Zipf定律。

Zipf定律表明,在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用。

实际上,包括汉语在内的许多国家的语言都有这样的特点。

比如:H,它的出现概率是5.9%,它的信息熵=-log₂(0.059)=4.083141比特。

再比如:Z,它的出现概率只有0.07%,它的信息熵=-log₂(0.0007)=10.480357比特。

坤鹏论:错了!信息熵≠信息量 轻松读懂什么是信息熵-坤鹏论

三、这些信息熵的要点总结请牢记

从上面的实例我们可以得出以下结论:

第一,信息熵与概率是相反的,是你增我减、此消彼长的关系。

某件事出现得越多,不确定性越小,因此,可以输入的信息量就越少;

某件事出现得越少,不确定性越高,因此,可以输入的信息量就越多。

第二,信息熵,度量的是出人意料的程度。

比如:你说,巴西获得了世界杯冠军,概率很高,没什么出人意料的。

但是,你说,中国获得了世界杯冠军,概率极低,太出人意料了,可以输入的信息量太大了。

再比如:太阳从东方升起,概率=1,信息熵为0,不出人意料,没有需要消除的不确定性。

还记得本文开头说的那条客户信息吗?

现在假设它是一条惊天密语。

除了里面的逗号是重复符号外,其他字符没有重复。

因此,它的信息熵非常高。

要想破解它,也就是使其变得100%确定,就需要输入其信息熵数值的信息。

不管是你自己想破头并不断试,亦或者求教人,都等于要向它再输入信息。

也就是,从开始每个字都是不确定性,到最终知道密语讲的是什么,都是不断注入新信息的功劳。

所以,信息熵告诉我们,一条消息里面有多少比特的不确定性,要想清除这些不确定性,就得输入相应多少比特的信息。

第三,不是你说了什么,而是你能说什么。

坤鹏论查了一下资料发现上一篇有些错误,这里一并更正一起。

1948年,香农的论文《通信的一个数学理论》(注意标题用的是a,而不后来的the)分成两部分,分别在7月和10月的《贝尔系统技术杂志》刊登。

1949年,香农才和沃伦·韦弗合著了《通信的数学理论》,其中包含香农的论文《通信的一个数学理论》以及沃伦·韦弗为非专业人士写的介绍通信理论的内容。

韦弗特别指出:信息论中的“信息”这个词不是指“你说了什么”,而是指“你能够说什么”。

那么,信息论中的信息量也就是——你能够说多少,你能有多少选择。

我们一起来品一品,简单讲就是,这里的“信息”不是已经说过的,而是还能够说的。

因此:

信息熵,是一个从“不知道”变成“知道”的差值。

信息熵越高,能传输越多的信息;

信息熵越低,能传输的信息越少。

比如:字符长度相等的两段内容。

如果一段可以被高度压缩,说明它的重复字符多,也就是概率高,所以熵低。

如果另一段几乎无法压缩,说明它的重复字符少,也就是概率低,所以熵高。

第四、信息熵,是通过只允许回答是或否的问题,来猜出一条未知信息时所需问问题的平均数目。

第五,香农总结的信息熵三特质:

单调性:即发生概率越高的事件,其所携带的信息熵越低。

非负性:即信息熵不能为负,任何事的不确定性程度最低只能为0。

累加性:即多随机事件同时发生存在的总不确定性的量度,是可以表示为各事件不确定性的量度的和。

好,今天先讲这么多,后面我们再接再厉。

本文由“坤鹏论”原创,转载请保留本信息


注:坤鹏论由三位互联网和媒体老兵封立鹏、滕大鹏、江礼坤组合而成。坤鹏论又多了位新成员:廖炜。即日起,坤鹏论所有自媒体渠道对外开放,接受网友投稿!如果你的文章是写科技、互联网、社会化营销等,欢迎投稿给坤鹏论。优秀文章坤鹏论将在今日头条、微信公众号、搜狐自媒体、官网等多个渠道发布,注明作者,提高你的知名度。更多好处请关注微信公众号:“坤鹏论”微信公众号:kunpenglun,回复“投稿”查看,自媒体人可加QQ群交流,群号:6946827