信息熵高,不代表说的话、写的文字的品质和内涵就比别人高。

——坤鹏论

坤鹏论:为什么同一本书的中文版比英文版薄?-坤鹏论

一、香农如何计算文字系统的信息熵?

首先,要明确一点——不管什么文字系统,英语或者汉语,亦或者法语、德语,本质都是一套符号系统。

在只关心文字数量不考虑内容的香农眼中,管它是英文字母,还是汉字,都只是一个符号而已。

这就是坤鹏论早先提到的,很多看似复杂无解的事情,只有敢于用奥卡姆剃刀披荆斩棘般地精简后,才能找到清晰的路径。

让我们再来看一下香农的信息熵公式:

坤鹏论:为什么同一本书的中文版比英文版薄?-坤鹏论

公式中出现的Pi指的是符号系统中某个符号出现的概率。

这个概率就是某个符号在全体文字材料中出现的比例。

比如:有一本100万字的书,经过统计发现,某个字在该书中出现了1万次。

那么该字在这本书中的概率就是:1万÷100百万=0.01=1%。

只要把某个符号系统中所有符号的概率全都统计出来,然后再代入到信息熵公式,就能算出该符号系统的平均信息熵了。

所以,信息熵的一个重要应用领域是自然语言处理。

比如:对于人们来说,一本50万字的中文图书它的平均有多少信息量?

常用汉字约7000字,假设每个汉字是相同的出现概率,每个汉字的信息熵大约为12.77比特。

计算公式为:-log₂(1/7000)=12.77

不过,和其他语言一样,汉语同样遵循Zipf定律,也就是少数文字使用频率远远高于其他文字。

实际中,前10%汉字占常用文本的95%以上。

再考虑词语等上下文关联的因素,每个汉字的平均信息熵大约是5比特左右。

那么,一本50万字的中文图书,信息熵平均约是250万比特。

阅读它,就可以消除平均约为250万比特的不确定性,也就是能够接收(输入)约250万比特的信息量。

不过,坤鹏论再次强调一次,信息量≠内容质量。

所以,这本书的品质如何,信息熵不知道,香农也不知道。

信息熵的高和低或者信息量的多或少,根本不代表说的话、写的文字的品质和内涵是高还是低。

再确切些讲,香农的信息熵,在自然语言处理中是用来对语言文字进行数据压缩的,和语言的品质无关。

坤鹏论:为什么同一本书的中文版比英文版薄?-坤鹏论

二、从公式入手看影响信息熵的两大关键

从信息熵公式我们可以看出,影响它的因素只有两个:

一是,符号的数量;

二是,符号的概率分布。

坤鹏论之前讲过:公式最能揭示本质。

显然,它们就是信息熵的本质。

那么,只要围绕这两个因素探究,结合文字系统,我们就能更加深入地了解信息熵了。

1.符号的数量

首先,看一下符号数量的问题。

为了避免概率分布的影响,我们假设所有符号的概率分布是相等的,也就是等概率分布,这时:

如果,符号数量=n;

那么,每个符号的平均信息熵=-log₂(1/n)

从上面这个公式我们可以快速得出结论:

符号越多,该符号系统的平均信息熵就越大。

中文就是最典型的例子。

汉字的数量并没有准确数字,大约近十万个(目前比较大的汉字字库收入有出处汉字91251个)。

不过,就如前面所说,咱们日常所使用的汉字只有几千字。

据统计,1000个常用字能覆盖约92%的书面资料,2000字可覆盖98%以上,3000字则已到99%。

简体中文与繁体中文的统计结果差不多。

正因为中文汉字平均信息熵比英文字母高。

所以,同样一本书,用中文版要比英文版薄不少。

这就是言简意赅最实锤的体现。

让我们再逆向假设,继续反转理解一下,加深印象。

假设英文字母不再是26个,而是1000个。

等概率分布的情况下,信息熵=-log₂(1/1000)=9.97,明显比27(26个字母+1个空格)的-log₂(1/27)=4.75高了一倍多。

按照调查数据显示,母语为英语的人的单词量约为20000~35000之间。

那么,如果是1000个字母,就意味着由两个字母和三个字母的单词就足够日常使用了。

而目前英文单词平均长度在4~5个字母,简单地掐指一算,差不多可以节省约50%的字母量。

想想看,一本书,如果光是字母减少的数量,就能让该书变薄不少。

但有趣的是,世界上以字母表为主的文字,大都是20~30左右的字母组成。

坤鹏论:为什么同一本书的中文版比英文版薄?-坤鹏论

2.符号的概率分布

传统热力学中,熵被定义为对系统的宏观测定,并没有涉及概率分布。

而概率分布却是信息熵的核心定义。

坤鹏论举例说明一下概率对信息熵的影响。

假设只有两个符号的文字系统,如果一个符号的出现概率是90%,另一个为10%,该系统的信息熵为:

-[0.9×log₂(0.9)+0.1×log₂(0.1)]=-(0.9×-0.152+0.1×-3.33)=0.47

但是,如果两个字符是等概率的话,这套文字系统的信息熵应该是-log₂(1/2)=1。

从上面的计算结果,我们可以得出结论:

符号概率分布越不均匀,信息熵越小;符号概率分布越均匀,信息熵越高。

其中原因在于,符号概率分布越均匀,每个符号与它前后符号的关联度越小。

也就意味着每个符号都很关键,不能丢。

所以,符号的不确定性高,信息熵大,可以输入的信息量大。

比如:中文一句话如果丢掉太多字,相当于缺少了大量增加确定性(可输入)的信息,本来就很强的不确定性变得更强,自然无法明白其表达的真正含义,从而无法还原。

从概率的角度分析,这是因为字与字的关联度小,意味着每个字出现的概率差不多,所以不容易猜出下一个字是什么。

从这一点看,我们是不是也能够客观地理解,为什么中国人说话声音会比较大些了?

还有为什么传话游戏中,一句并不复杂的话,最后总会被传得面目全非?

同时,再看看下面的内容,你也应该明白,为什么使用字母的国家的人,则可以轻声细语地聊天。

如果概率分布越不均匀,符号出现的关联越强,符号就越能省略,因为它们可以提供的信息少。

比如:英文表示进行时的ing,还有表示名词的tion等,即使丢一个字母,也不会妨碍阅读。

MST PPL HV LTTL DFFCLTY N RDNG THS SNTNG

上面这段是香农当初举的例子。

英语熟练的人几乎都能念出它的原文——most people have little difficulty in reading this sentence。

前面我们比较的是英文字母和汉字的信息熵。

那么,如果是英文单词呢?

信息熵是不是会高呢?

总结下来,英文一句话中每个单词前后的关联性更强,因此,英文单词的信息熵更低。

1951年,香农发表了《书面英语的预测和熵》论文,说明信息论不但可以应用于计算机语言,而且可以应用于自然语言,他还计算了英语的熵,主张从数理统计的角度去分析人类语言,他计算出单个英文单词的信息熵只有2.62。

另外,文字的概率分布也会因不同领域而存在较大不同。

像“熵”这个字,人们平常极少遇到它,其信息熵相当高。

但是,在热力学、统计力学里,它就是个常客,出现概率相当高,所以在这些专业领域,“熵”的信息熵比较低。

当然,不论什么语言,估计单位字符信息熵最高的文章莫过于数学论文,因为,数学家能用公式,绝不用文字。

坤鹏论:为什么同一本书的中文版比英文版薄?-坤鹏论

三、总结:你理解文字系统的信息熵了吗?

结合香农和维纳的公式,我们可以得出不管什么样的文字系统:

每个字符的平均信息量(维纳的信息量公式)和每个字符的平均信息熵(香农的信息熵公式),数字相同,只是前面有没有负号的区别。

每个字符多少比特的平均信息量,就是可以减少相同比特量的信息熵。

那么,如果说有个消息的信息熵是100个比特,说明它还可以输入100个比特的信息量。

显而易见的是,相对信息熵高的汉语所需要的字符比英语少了不少。

由于信息熵、信息量和字符出现的概率是相反的关系,我们还可以得出:

一种语言每个字符的平均信息熵越大,说明每个字符的出现的概率越小,说明其字符数量越多,体现了该语言字符集的复杂程度;

一种语言每个字符的平均信息熵的计算,是对该语言字符系统的不确定性的度量;

一种语言中每个字符平均信息熵越大,说明该语言每个字符对信息的描述能力越大。

本文由“坤鹏论”原创,转载请保留本信息


注:坤鹏论由三位互联网和媒体老兵封立鹏、滕大鹏、江礼坤组合而成。坤鹏论又多了位新成员:廖炜。即日起,坤鹏论所有自媒体渠道对外开放,接受网友投稿!如果你的文章是写科技、互联网、社会化营销等,欢迎投稿给坤鹏论。优秀文章坤鹏论将在今日头条、微信公众号、搜狐自媒体、官网等多个渠道发布,注明作者,提高你的知名度。更多好处请关注微信公众号:“坤鹏论”微信公众号:kunpenglun,回复“投稿”查看,自媒体人可加QQ群交流,群号:6946827