要想正确理解香农的信息熵,一定要时刻提醒自己,香农老人家只关心字数,而不关注信息内容和质量。

——坤鹏论

坤鹏论:信息是熵?错-坤鹏论

再次对今天的文章修订的时候,坤鹏论发现,“信息不是说了什么,而是还能说什么。”这个总结简直绝妙、经典至极。

将其牢记在心,对于学习信息、信息熵是最好的理解辅助。

一、工程师敲定的“information”

20世纪初,信息随处可见,除了报刊、图书、信件之外,电报、电话、广播、电影也早已走入到了老百姓的生活中。

但是,那时候还没有一个词能够概括所有这些东西。

起初香农用英文的intelligence来表示信息。

1939年,在给麻省理工学院导师范内瓦·布什的一封信中他这样写道:“时断时续地,我一直在研究传递信息(intelligence)的一般系统的某些基本属性。”

intelligence这个词一般被翻译成情报,它还有智力、智慧、理解力、才智、天分等含义。

后来,一些工程师,特别是贝尔实验室的工程师们,已经开始使用information来表达“信息”,主要应用在一些技术性的概念上。比如:信息的数量、信息的测量等。

information源于拉丁文的“形式”一词——informatio,它派生的动词又有通知、告知的意思。

后来,香农也改用这个词。

如今,information已经被定义为严谨的科学术语,并且定义比较缤纷,不统一,这是由于它的极端复杂性造成的。

除了香农给出的——“信息,是能够用来消除不确定性的东西”外,对于information还有以下一些定义,大家可以一一品味,这些都是牛人们经过了再三思考与斟酌,非常有学习价值:

1.凡是在一种情况下能减少不确定性的任何事物都叫信息。

2.信息是物质存在的一种方式、形态或运动形态,也是事物的一种普遍属性,一般指数据、消息中所包含的意义,可以使消息中所描述事件中的不定性减少。

3.英国学者阿希贝认为,信息的本性在于事物本身具有变异度。

4.意大利学者朗高在《信息论:新的趋势与未决问题》中认为:信息是反映事物的形成、关系和差别的东西,它包含于事物的差异之中,而不在事物本身。

5.北京邮电大学钟义信教授给出的定义为:信息是事物运动的状态及其改变方式。

6.借此机会,坤鹏论再分享一种古老的对事物的定义方法,它就是亚里士多德所倡导的——属加种差定义法。

也就是,A是满足C特质的B。

这里A是被定义项(被定义的),B是A的属,即,这个概念是更一般于A的提前被定义的了,或已经知道的,和C并不代表这一概念,但对所有的陈述来说,A是如何不同于B的所有其他种(即所有别的概念的一般性更小于B)。

绕不绕?

这比脑筋急转弯,还弯弯绕,举个例子说明一下。

比如:“人是两条腿的无羽毛动物”:

A=“人”

B=“两条腿动物”

C=“无羽毛”

它是亚里士多德在他的演讲中对学生讲的如何进行概念定义的著名例子。

据说,第二天这位学生将一只剃了羽毛的鸡带到了演讲会上。

在亚里士多德著名的逻辑学教本《工具论》,不管什么版本,最开始都会有“波莫利的《导论》”,其中重点讲了属、种、种差、特性与偶性的本质,是中世纪成为逻辑学的必读文章。

根据属加种差定义法,美国哲学家弗雷德·德雷特斯基在《知识与信息流》一书中给出了他的信息的定义:“粗略地说,信息是能够产生知识的商品,消息或信号所携带的正是我们需要知道的。”

另外,在热力学中,信息是指任何会影响系统的热力学状态的事件。

坤鹏论:信息是熵?错-坤鹏论

二、维纳的信息量公式

在《香农八年磨一剑,磨出一个撬动地球的支点》坤鹏论提到,历史中有三个人不约而同地想到了用统计力学的熵公式来度量信息。

他们是现代统计学奠基人之一、英国统计学家与遗传学家R.A.费雪、控制论创始人诺伯特·维纳、信息论创始人香农。

其中的维纳还在麻省理工学院教过香农,也是一位传奇式的科学大师。

在其众多的伟大科学成果中,专门有一条是“开创维纳信息论”。

维纳独立于香农,从带直流电流或者至少可看作直流电流的电路出发来研究信息论,将统计方法引入通讯工程,奠定了信息论的理论基础。

而且,维纳和香农提出公式的时间都在1948年,香农写在他的论文里,而维纳则写在其《控制论》的书中。

不过,维纳的观点和香农稍有不同。

他的公式前面并没有加负号。

所以,用该公式计算出来的数值为负。

可以说,香农的信息熵算出来的是信息的不确定性。

而维纳的公式算出来的是消除不确定性需要的信息量,可以称为信息量公式。

维纳认为,信息代表秩序。

他在《控制论:关于在动物和机器中控制和通讯的科学》中这样定义信息:

“我们在适应外部世界,控制外部世界的过程中,同外部世界交换的内容的名称。”

“信息,与其说是旨在储藏,不如说旨在流通。”

还记得坤鹏论之前讲过薛定谔的《生命靠负熵生存》吧?

秩序=有序的能量=可用的能量=负熵

也就是说,秩序可以减少系统的熵。

坤鹏论突然想到,如果不叫负熵,而叫减熵,这样会让其既易懂,又准确。

可以说,这个观点根本不需要懂什么数学公式,就能理解,而且非常非常有道理。

其实但凡背后有着高大上的科学理论,但又深入浅出,并暗合人生哲理的信息,都特别容易流行并被大众传唱。

维纳还说,“有序的事物并不一定含有很多信息。”

什么意思?

坤鹏论理解下来认为,因为事物的确定性(有序性)与信息量无关,只与概率相关,信息量是被概率决定的。

概率越高,有序性越高(确定性越高)(不确定性越低),需要输入的信息量却越少;

概率越低,有序性越低(确定性越低)(不确定性越高),需要输入的信息量却越多。

还是那个例子,太阳从东方升起,这条信息的概率是1,极端有序,你对此根本不需要再输入信息。

由此可以看出,维纳与坤鹏论在《人类就是麦克斯韦妖》讲到的,同在贝尔实验室工作的法国物理学家布里渊,观点一致。

布里渊将信息论和统计力学联系起来考虑,参考了齐拉特提供的线索,在1956年出版的《科学与信息论》这本专著中,更加全面地论述了信息与熵的关系。

他认为,信息应该被视为系统熵的负项,即信息的作用是减熵,也就是使系统的混乱程度减小。

而且他还进一步指出,信息是负熵,可以降低系统的熵。

信息代表着秩序,代表着外部输入的有序能量,增强了系统的有序度,也就降低了系统的无序度,使系统熵减。

相对来说,不管是公式表达,还是维纳的定义表述,都更容易让人理解。

对照他的公式,我们能够很清晰地明白,为什么信息熵是对信息不确定性的测量。

比如,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。

相反,如果我们对某件事已经有了较多了解,不需要太多信息就能将其搞清楚。

所以,从这个角度,我们可以认为,信息量的度量就等于计算出不确定性的多少,也就是传输多少信息才能让我们消除对一件事的不确定性,搞清楚它。

香农也曾向维纳提起过其中的差异,并认为无关紧要,不过是“数学上的文字游戏”,而且他们算出来的数值结果是相同的。

同时,他还曾说过这样一段话来表述其中的区别:

“我考虑的是,从一个集合中作出选择时会有多少信息产生——这样一来,集合越大,产生的信息越多。而你考虑的是,集合越大,不确定性越高时,对于该情况的知识就越少,因而信息也就越少。”

这段话,坤鹏论品了好多遍才算懵懵懂懂。

所以看不明白,不要紧,慢慢品。

提几个思考要点:

第一,信息论中的“信息”不是指已经说了什么,而是还能够说什么。

第二,信息的作用到底是什么?

归根结底主要还是为了帮助人们作出选择,而在作出选择时,他们认为事物已经是确定性的了。

第三,集合的意思相当于数学和物理学的相空间。

相空间是一个用来表示出一个系统所有可能状态的空间;系统每个可能的状态都有一相对应的相空间的点。

到信息论这里,就叫集合,也就是某个事物所有信息的集合,一条确定性的信息会减少这个集合的熵。

人在做出选择前,往往会尽可能搜集关于选择事物的所有信息,从来没有听一面之词就决定的时候。

有人说,不会呀!

为什么有人特别相信某个人的话,只要某个人一说,就言听计从呢?

请注意,相信一个人和相信一个人的话,这就最少是两个信息的组合吧。

特别是相信一个人那更是经过了相当复杂的集合才做出的选择。

如果你还是有疑问,就想想任何一个生活中要做选择的事情吧,比如:购物、比如:买股票、比如:旅游……

没有一个不是信息集合的选择。

不得不承认,从熵这个字开始,从热力学到信息论对熵的众说纷纭,再加上香农和维纳的不同解读,以及后来人们的众说纷纭,都引起了持续到现在的混乱。

而香农曾有过这样一句话:“光荣应归于维纳教授”。

坤鹏论:信息是熵?错-坤鹏论

三、信息不是熵!

香农说过,信息是熵。

实话讲,这话挺害人。

就算我们按照热力学中熵的错误理解——熵=混乱,也不能想明白“信息是熵”是个什么道理?

在《错了!信息熵≠信息量 轻松读懂什么是信息熵》中,我们已经知道了,信息论里面的熵,指的是不确定性的程度。

如果说“信息是熵”,那么到底是:

信息=不确定程度?

还是

信息=不确定性?

显然都不对吧?!

不管是香农,还是维纳,他们都认同——信息的作用是,消减消息中的不确定性程度(熵)。

所以,维纳所说的“信息是负熵”,其实才更为合理。

或者香农自己给出的定义:“信息,是能够用来消除不确定性的东西。”

亦或者,直接用坤鹏论的“信息是减熵”,也就是减少熵,减少消息中的熵,减少事件的不确定性。

于是,我们可以得出:

信息=不确定的减少=确定性的增加=信息熵的减少=负熵=减熵

这样的公式能够让绝大多数人很快明白。

总而言之,当你听到“信息是熵”,就大致知道对方应该是还没搞清楚什么是信息熵。

并且,坤鹏论发现理解成“信息=不确定性”的人,还真不在少数。

关键是,这么理解,也可以非常地自圆其说。

而且通常还把内容质量也纳入其中解说,真心比信息熵的正解高大上的多得多。

不过,真要深入学习信息熵,这样的李鬼在信息熵的正解面前,就会现原形,结果是你一时间彻底晕菜了!

因为,你的思想处在了非常拧巴的状态中。

对!

这就是传说中的反转。

就像你一直以为一位美丽女子是公主,结果突然有一天有人告诉你,她身边那个朴素的女孩才是公主。

信息论中的信息和信息熵,真的就是那么朴素,朴素到只计字数,不管内容。

坤鹏论:信息是熵?错-坤鹏论

四、信息量不是信息熵,但数字相等!

不少人认为,信息熵就是信息量。

客观讲,它不算全错,因为它是两个等号后的那个结果。

但这么理解,会让普通人混乱。

所以,我们最好记住香农和维纳两个公式,也就是记住将有没有负号视为两个公式:

香农的信息熵公式——告诉我们一条消息有多少比特的不确定性;

维纳的信息量公式——告诉我们消除一条消息的不确定性需要输入多少比特的信息。

一个负号正好代表了信息量和信息熵的关系——相减的关系。

信息不是说了什么,而是还能说什么。

信息量不是说了多少,而是还能说多少。

信息是消减信息熵的东西,信息量的多少就是信息熵的多少。

所以:

信息熵=事件不确定性的度量;

信息量=事件不确定性程度减少的量=事件确定性程度增加的量。

而香农对于信息量的定义恰恰就是——信息量是随机不确定性程度的减少。

对于只有确定性与不确定性这样的二元概率,自然只要知道其一,就能够知道另一个。

因此,知道了不确定程度的信息熵,自然也就知道了还要输入多少信息才能消除信息熵,获得100%确定性。

比如:我们知道某一事件的信息熵有5个比特,那么也就知道了再输入5个比特的信息就能消除它的信息熵。

再比如:你虽然没看过《红楼梦》,但知道它的作者是谁,写于什么年代,里面的主人公有贾宝玉、林黛玉、薛宝钗、王熙凤等。

你不知道的那些,都是信息熵,也就是不确定性,非常大,此时可以说,对于《红楼梦》你的可输入信息量非常大。

当你开始读《红楼梦》,就是输入信息,填补的是信息熵,达到减少熵的效果,而这些你所阅读的、且未知的信息就叫信息量。

所以,信息熵可以代表信息量,精确地说,是可以输入的信息量。

而香农信息论的精髓就是,算出信息熵,也就知道了该事件还需要输入多少比特信息才能确定。

所以,我们可以讲,信息熵越大,可以输入的信息量越大。

许多人将其简化为,信息熵越大,信息量越大。

省了几个字,却费了无数人的脑细胞。

坤鹏论:信息是熵?错-坤鹏论

五、小结:信息和信息熵

再让我们一起总结一下:

信息熵,表示的是某一事件的不确定性程度。

信息,就是用来降低这种不确定性程度的。

信息熵,不是对信息量的度量,但等于消除不确定性需要输入的信息量。

输入的信息量,就是该事件不确定性程度减少的大小,也就是信息熵减少的大小。

信息熵,是指从不确定到确定所需要的信息量。

信息熵越大,不确定性越大;信息熵越大,可输入的信息量越大。

六、切记!信息熵和内容本身无关

这需要一再强调,因为网上太多相关文章将它们混淆在一起。

我们一定要记住,香农的信息论是抛开内容问题的信息论,只计字数不问内容。

本来,人家就是为了让信息传输得更高效、准确,这已经相当足够了。

精准地衡量内容品质,自然科学还是有些吃力。

所以,信息熵只反映消息的不确定性,与内容本身无关。

不管是什么样内容的文件,只要服从同样的概率分布,就会计算得到同样的信息熵。

请特别注意的是,我们理解信息熵时,千万不要掺和进内容。

也就是说,这个内容讲的没意义之类的,否则就会不断处于混乱。

就像你拿了一麻袋一分钱的钢镚儿买东西,钢镚儿非常多,但钱不一定够。

也就是说,钢镚儿的数量和钱的多少是两回事。

坤鹏论发现,不少人在说信息熵时,会将理解中的信息量与客观的信息量搞混。

什么叫理解中的信息量?

比如:《大话西游》中的唐僧,唠唠叨叨,废话连篇,其实没什么信息量,反而是最后不知是梦还是真实的唐僧,内敛和惜字如金,我们却认为他的话里面信息量大。

这个理解中的信息量,是指信息接收者听到或看到信息后,除了表面的信息,还消化、理解、琢磨、猜测、推理……听话听音,脑补出了大量话里话外的信息。

所以,理解中的信息量=信息发送者发送的信息量+接收者脑补的信息量。

客观的信息量,则只是根据字符的数量、概率计算出来的信息熵后,得出的可以输入的信息数量。

日常生活中,我们常说某人说话言简意赅,信息量却很大;某些人口若悬河,却废话连篇,没信息量。

这个说法没错,但是,你可不能和香农的信息量混为一谈,得出“话越多,信息熵越高”、“越言简意赅,信息熵越低”等结论。

因为这些信息量其实指的是其内容质量和传递效率。

有没有干货?有没有精辟观点?有没有独到思想?在一定文字长度/播放时间内,能不能有效表达?

这些其实都是与个人的能力相关,和香农的信息熵、信息量没有任何关系。

七、思考题

请问:信息熵表示随机事件自身所含的信息的量,这个表述对吗?

请问:信息熵表示随机事件所含有的不确定性的量,这个表述对吗?

请问:信息熵表示把一个随机事件确定下来,需要消除的不确定性的量,这个表述对吗?

如果这三个问题,你都能回答正确,恭喜,你已经掌握信息熵的基本概念了。

本文由“坤鹏论”原创,转载请保留本信息


注:坤鹏论由三位互联网和媒体老兵封立鹏、滕大鹏、江礼坤组合而成。坤鹏论又多了位新成员:廖炜。即日起,坤鹏论所有自媒体渠道对外开放,接受网友投稿!如果你的文章是写科技、互联网、社会化营销等,欢迎投稿给坤鹏论。优秀文章坤鹏论将在今日头条、微信公众号、搜狐自媒体、官网等多个渠道发布,注明作者,提高你的知名度。更多好处请关注微信公众号:“坤鹏论”微信公众号:kunpenglun,回复“投稿”查看,自媒体人可加QQ群交流,群号:6946827