信息熵高,不代表说的话、写的文字的品质和内涵就比别人高。
——坤鹏论
一、香农如何计算文字系统的信息熵?
首先,要明确一点——不管什么文字系统,英语或者汉语,亦或者法语、德语,本质都是一套符号系统。
在只关心文字数量不考虑内容的香农眼中,管它是英文字母,还是汉字,都只是一个符号而已。
这就是坤鹏论早先提到的,很多看似复杂无解的事情,只有敢于用奥卡姆剃刀披荆斩棘般地精简后,才能找到清晰的路径。
让我们再来看一下香农的信息熵公式:
公式中出现的Pi指的是符号系统中某个符号出现的概率。
这个概率就是某个符号在全体文字材料中出现的比例。
比如:有一本100万字的书,经过统计发现,某个字在该书中出现了1万次。
那么该字在这本书中的概率就是:1万÷100百万=0.01=1%。
只要把某个符号系统中所有符号的概率全都统计出来,然后再代入到信息熵公式,就能算出该符号系统的平均信息熵了。
所以,信息熵的一个重要应用领域是自然语言处理。
比如:对于人们来说,一本50万字的中文图书它的平均有多少信息量?
常用汉字约7000字,假设每个汉字是相同的出现概率,每个汉字的信息熵大约为12.77比特。
计算公式为:-log₂(1/7000)=12.77
不过,和其他语言一样,汉语同样遵循Zipf定律,也就是少数文字使用频率远远高于其他文字。
实际中,前10%汉字占常用文本的95%以上。
再考虑词语等上下文关联的因素,每个汉字的平均信息熵大约是5比特左右。
那么,一本50万字的中文图书,信息熵平均约是250万比特。
阅读它,就可以消除平均约为250万比特的不确定性,也就是能够接收(输入)约250万比特的信息量。
不过,坤鹏论再次强调一次,信息量≠内容质量。
所以,这本书的品质如何,信息熵不知道,香农也不知道。
信息熵的高和低或者信息量的多或少,根本不代表说的话、写的文字的品质和内涵是高还是低。
再确切些讲,香农的信息熵,在自然语言处理中是用来对语言文字进行数据压缩的,和语言的品质无关。
二、从公式入手看影响信息熵的两大关键
从信息熵公式我们可以看出,影响它的因素只有两个:
一是,符号的数量;
二是,符号的概率分布。
坤鹏论之前讲过:公式最能揭示本质。
显然,它们就是信息熵的本质。
那么,只要围绕这两个因素探究,结合文字系统,我们就能更加深入地了解信息熵了。
1.符号的数量
首先,看一下符号数量的问题。
为了避免概率分布的影响,我们假设所有符号的概率分布是相等的,也就是等概率分布,这时:
如果,符号数量=n;
那么,每个符号的平均信息熵=-log₂(1/n)
从上面这个公式我们可以快速得出结论:
符号越多,该符号系统的平均信息熵就越大。
中文就是最典型的例子。
汉字的数量并没有准确数字,大约近十万个(目前比较大的汉字字库收入有出处汉字91251个)。
不过,就如前面所说,咱们日常所使用的汉字只有几千字。
据统计,1000个常用字能覆盖约92%的书面资料,2000字可覆盖98%以上,3000字则已到99%。
简体中文与繁体中文的统计结果差不多。
正因为中文汉字平均信息熵比英文字母高。
所以,同样一本书,用中文版要比英文版薄不少。
这就是言简意赅最实锤的体现。
让我们再逆向假设,继续反转理解一下,加深印象。
假设英文字母不再是26个,而是1000个。
等概率分布的情况下,信息熵=-log₂(1/1000)=9.97,明显比27(26个字母+1个空格)的-log₂(1/27)=4.75高了一倍多。
按照调查数据显示,母语为英语的人的单词量约为20000~35000之间。
那么,如果是1000个字母,就意味着由两个字母和三个字母的单词就足够日常使用了。
而目前英文单词平均长度在4~5个字母,简单地掐指一算,差不多可以节省约50%的字母量。
想想看,一本书,如果光是字母减少的数量,就能让该书变薄不少。
但有趣的是,世界上以字母表为主的文字,大都是20~30左右的字母组成。
2.符号的概率分布
传统热力学中,熵被定义为对系统的宏观测定,并没有涉及概率分布。
而概率分布却是信息熵的核心定义。
坤鹏论举例说明一下概率对信息熵的影响。
假设只有两个符号的文字系统,如果一个符号的出现概率是90%,另一个为10%,该系统的信息熵为:
-[0.9×log₂(0.9)+0.1×log₂(0.1)]=-(0.9×-0.152+0.1×-3.33)=0.47
但是,如果两个字符是等概率的话,这套文字系统的信息熵应该是-log₂(1/2)=1。
从上面的计算结果,我们可以得出结论:
符号概率分布越不均匀,信息熵越小;符号概率分布越均匀,信息熵越高。
其中原因在于,符号概率分布越均匀,每个符号与它前后符号的关联度越小。
也就意味着每个符号都很关键,不能丢。
所以,符号的不确定性高,信息熵大,可以输入的信息量大。
比如:中文一句话如果丢掉太多字,相当于缺少了大量增加确定性(可输入)的信息,本来就很强的不确定性变得更强,自然无法明白其表达的真正含义,从而无法还原。
从概率的角度分析,这是因为字与字的关联度小,意味着每个字出现的概率差不多,所以不容易猜出下一个字是什么。
从这一点看,我们是不是也能够客观地理解,为什么中国人说话声音会比较大些了?
还有为什么传话游戏中,一句并不复杂的话,最后总会被传得面目全非?
同时,再看看下面的内容,你也应该明白,为什么使用字母的国家的人,则可以轻声细语地聊天。
如果概率分布越不均匀,符号出现的关联越强,符号就越能省略,因为它们可以提供的信息少。
比如:英文表示进行时的ing,还有表示名词的tion等,即使丢一个字母,也不会妨碍阅读。
MST PPL HV LTTL DFFCLTY N RDNG THS SNTNG
上面这段是香农当初举的例子。
英语熟练的人几乎都能念出它的原文——most people have little difficulty in reading this sentence。
前面我们比较的是英文字母和汉字的信息熵。
那么,如果是英文单词呢?
信息熵是不是会高呢?
总结下来,英文一句话中每个单词前后的关联性更强,因此,英文单词的信息熵更低。
1951年,香农发表了《书面英语的预测和熵》论文,说明信息论不但可以应用于计算机语言,而且可以应用于自然语言,他还计算了英语的熵,主张从数理统计的角度去分析人类语言,他计算出单个英文单词的信息熵只有2.62。
另外,文字的概率分布也会因不同领域而存在较大不同。
像“熵”这个字,人们平常极少遇到它,其信息熵相当高。
但是,在热力学、统计力学里,它就是个常客,出现概率相当高,所以在这些专业领域,“熵”的信息熵比较低。
当然,不论什么语言,估计单位字符信息熵最高的文章莫过于数学论文,因为,数学家能用公式,绝不用文字。
三、总结:你理解文字系统的信息熵了吗?
结合香农和维纳的公式,我们可以得出不管什么样的文字系统:
每个字符的平均信息量(维纳的信息量公式)和每个字符的平均信息熵(香农的信息熵公式),数字相同,只是前面有没有负号的区别。
每个字符多少比特的平均信息量,就是可以减少相同比特量的信息熵。
那么,如果说有个消息的信息熵是100个比特,说明它还可以输入100个比特的信息量。
显而易见的是,相对信息熵高的汉语所需要的字符比英语少了不少。
由于信息熵、信息量和字符出现的概率是相反的关系,我们还可以得出:
一种语言每个字符的平均信息熵越大,说明每个字符的出现的概率越小,说明其字符数量越多,体现了该语言字符集的复杂程度;
一种语言每个字符的平均信息熵的计算,是对该语言字符系统的不确定性的度量;
一种语言中每个字符平均信息熵越大,说明该语言每个字符对信息的描述能力越大。
本文由“坤鹏论”原创,转载请保留本信息
注:坤鹏论由三位互联网和媒体老兵封立鹏、滕大鹏、江礼坤组合而成。坤鹏论又多了位新成员:廖炜。即日起,坤鹏论所有自媒体渠道对外开放,接受网友投稿!如果你的文章是写科技、互联网、社会化营销等,欢迎投稿给坤鹏论。优秀文章坤鹏论将在今日头条、微信公众号、搜狐自媒体、官网等多个渠道发布,注明作者,提高你的知名度。更多好处请关注微信公众号:“坤鹏论”微信公众号:kunpenglun,回复“投稿”查看,自媒体人可加QQ群交流,群号:6946827
最新评论