凡有概率之事,只要时间够长,或是重复的次数够多,小概率总有可能发生。
永远不要被大概率蒙蔽了理智,要不然就会被小概率的黑天鹅狠狠地伤到自己。
——坤鹏论
一、如果没有信息熵该多好!
有朋友在思考后会直觉地反问道,既然信息熵衡量的不确定性程度,如果消息中没有不确定性,那多好。
这个问题在网上讨论得蛮多。
确实,理论上讲,如果我们都使用一个字母来说话,那就没有信息熵——-log₂(1/1)=0,没有不确定性了。
但是,它也传达不了任何信息,比如:
AAAAAAAAAAAAAAAAAAAAAAAAAAAA
我们除了数出有多少个A外,还能知道什么呢?
有人说,我们可以用几个A的不同组合来组成词语呀。
比如:AA=我,AAA=你,AAAA=他……
聪明!
但是,这样的话,中间还要有空格或分隔标识,不管是空格,还是分隔线,它们都算字符,所以加起来就成了两个字符,信息熵为1(-log₂(1/2)=1)。
显然,如果这种“语言系统”要在实际中应用,就类似于计算机的二进制0和1,A相当于是1,空格相当于是0。
又或者像摩斯电码,只有短促的“·”信号,读“滴”,以及保持一定时间的长信息“—”,读“嗒”。
不过,它的最大问题就是太影响语音交流。
而且,它们背后都有一个编码表,与人类的语言符号相对应。
因此,它们不过是人类口语的另一种符号表现形式而已。
以此类推,用A和空格去创建的语言系统也一样意义不大。
并且,因为信息熵过小,而造成没必要的麻烦。
就像非洲原始部落,有一种叫鼓语的语言,它不仅可以让人面对面交流,还能通过击鼓的方式更远地传播出去。
与摩斯电码不同的是,非洲的各种语言没有字母表,所以鼓语也没有编码可用,所以,它其实是口语的一种变形。
非洲的方言非常复杂,各地方言数以千计,迥异的语言也能达到数百种。
如果你去非洲旅行,基本上每走100公里就得换一个翻译。
但是,鼓语就如同象形文字,可以被持不同方言的各部落人们所理解。
据说,在比较安静的清晨和傍晚,鼓声可以传到15公里以外。
就这样,鼓手们一个接一个地重复着鼓声,以用惊人的速度准确地传“话”——一两百公里以外的的地点可以在一小时内达到。
有人说,在非洲,手和鼓面就是语言,打鼓就是在刷“朋友圈”。
过去,当奴隶贩子捕捉黑人时,非洲人就通过鼓语通知人们迅速逃离,使得奴隶贩子一无所获。
所以,葡萄牙在非洲殖民期间,为了保证黑人奴隶不会聚众暴乱,鼓一度是被严禁的乐器。
另外,在非洲鼓语还常常用来号召人民参加公益劳动、抵御敌人来犯、报告火警等。
甚至还可以祈祷、朗诵诗篇、赞美酋长、夸奖老婆、报告婴儿的诞生……
这种语言极具韵律,发音相同的两个词,根据声调不同,表达的意思就可能完全不同。
这种语言又被称为声调语言,声调升降就像不同的辅音或元音一样也能区分意义。
大多数印欧语言,包括英语在内,都没有这种特点。
它们只把音调用于某些句法,比如:区分疑问和陈述。
相信大家肯定想到了咱们中文,对的,汉语普通话和粤语都是声调语言最著名的代表,声调在区分不同的字词时起着主要作用——想想多音字!
绝大多数非洲语言也是如此,将声调作为举足轻重的一部分。
鼓语更进一步,它击鼓传播出去的声音是将发音的变化刨除,只传播声调的变化。
也就是只有一对音素的语言,完全通过高低音的变化的构成。
所以,非洲鼓种类很多,原材料和工艺各不相同,但它们相同的一点就是要能够发出两个可辨别的音符,彼此相差约一个大三度。
可想而知,这会造成了极大的歧义,于是鼓手会用尽量多的、重复的鼓语,来描述同一件事。
比如一个妻子呼唤在森林散步的丈夫回家吃饭,她的鼓语翻译过来说:
“森林里的白种男人精灵,回来回来,回到属于森林里的白种男人精灵的高高的木屋。女人和洋芋在等待着你。回来回来。”
上面这句如诗一般的鼓语,主要词语前面那些类似形容词的“小短语”,其作用就是为了进行区分,因为天生的限制,鼓语的词汇量有限,经常是一个鼓语词汇要匹配多个意思。
比如:父亲的声调,还能表示月亮、鸡、鱼等词。
在加上小短语后,月亮就表示成了“那俯视大地的月亮”;而鸡则成了“那啾啾叫的小东西——鸡”。
所以,这些额外的小短词并不是为了听上去有诗意,更不是画蛇添足,它们的功效就是为了提供上下文信息,使得那些不确定性非常大的词,消除了歧义。
坤鹏论以前没少在公园围观人家敲非洲鼓,当时就觉得韵律好听,尤其是多人一起敲的时候,今天才知道,原来他们是在集体说话。
这不禁让我们想起了那些古老的诗篇。
结构语言学家米尔曼·帕里提出,那些最初的诗歌,格律、程式化的重复,首要目的无非是为了帮助记忆。
其朗朗上口的特性使得诗句像时间胶囊一样,可以将一部分虚拟的文化百科全书代代相传。
正如荷马史诗,它会将宙斯称为“集云的神宙斯”;大海表述为“酒色的大海”,与鼓语总会有小短语很类似。
还有我国著名的《诗经》,更是典型的格律、程式化的重复,比如:
桃之夭夭,灼灼其华。
之子于归,宜其室家。
桃之夭夭,有蕡其实。
之子于归,宜其家室。
桃之夭夭,其叶蓁蓁。
之子于归,宜其家人。
总之,我们可以得出一个结论,信息熵低,容易引起歧义。
为了减少歧义,我们又不得不重复或是多说话,这就带来了冗余。
这就是信息熵公式所揭示的:可用的符号越少,为了表达出给定信息量,就必须传递更多数量的符号。
而非洲的鼓手,需要传递的符号数是对应口语的八倍之多。
如同鼓语一样,大多数时候,语言中的冗余是为了提供背景信息。
所以,几乎所有人类的语言都自带冗余性,这种冗余性是为了减少歧义,它是避免混淆的良药,提供了第二次机会。
就像电报编码,虽然高效而简洁,但它也有始料不及的副作用,也就是哪怕最微小的错误也会造成意想不到的破坏。
其中原因就在于缺乏一般语言天然具有的冗余度。
所以,在破坏和增加点冗余之间,人类选择了宁可啰嗦一点。
而恰恰有着语言的冗余性,使得人们可以读得懂错字连篇的文章,可以在嘈杂的房间里听懂交谈内容。
二、香农的第二个成就——用冗余克服噪音
香农的信息论一直都紧紧地围绕着信息的冗余,并因此获得了两个流芳百世的成就:
一个是消除冗余以提升传输效率;
另一个是增加冗余以纠正错误,克服噪声,提升准确率。
由此,我们就该更加明确的理解香农所说的,通信技术的主要矛盾就是传输速率与可靠性的矛盾。
通过找出一个关键点,然后解决两个矛盾点,这不是天才的洞见,还是什么!
而且,即使是已经进入千兆宽带、5G的现在,香农的理论依旧罩得住,还没有谁能跳出去。
所以,只要在信道质量不变的前提下,也就是只要有噪音存在,哪怕是一丁点儿,如果一味地提升数据传输速率,必然就会导致信号的失真,甚至完全识别不出来。
举个简单的例子说明一下。
假设要传递ABCD这四个字母的消息,而传递的方式是用0和1两个数字对应这四个字母编码。
最高效的编码方式自然是两个数字对应一个字母,比如:
A=00
B=01
C=10
D=11
这样,只要传递“00 01 10 11”,就是ABCD。
但是,信道中的噪音是无法完全消除的,如果因为它的影响,即使只是改变一个数字,比如:把“01”的0变成了1,那么就成了“00 11 10 11”,这就传递成了ADCD了!
这种不留余地的高效做法,结果就是一旦遭遇噪声影响产生错误,连挽回的余地都没有。
而且,只要在地球上,常在河边走,哪里能不湿鞋?!
不要忘记,随机性、偶然性总在时刻窥觑,并时刻准备出来改变必然。
凡关乎概率的事情,只要时间够长,或是重复的次数够多,小概率总有可能发生。
永远不要被大概率蒙蔽了理智,要不然就会被小概率的黑天鹅狠狠地伤到自己。
这其实跟做人做事一样。
曾国藩有一句名言:“凡事留余地,雅量能容人。”
《 菜根谭》说:“路径窄处留一步,与人行;滋味浓时减三分,让人嗜。此是涉世一极乐法。”
李嘉诚一直相信,给他人留点余地,也相当于给自己留空间。
由于效率与可靠是此消彼长的一对矛盾,而在实践中可靠更重要于效率,香农提出了给编码增加冗余度。
比如:可以用五个数字代表一个字母:
A=00000
B=00100
C=11100
D=11010
这下,即使在传播过程中遭遇噪音,也能够实现较大的容错。
比如:11011这样的编码,你也能猜到,它是D。
香农最初只是讨论语言符号的冗余,后人在他的理论指导下发现,这个世界上只要与信息相关,基本都会存在着冗余。
就像图像、声音、视频等。
所以,香农的理论几乎通吃所有压缩方案,不管是文本,还是图、声、影。
其实,人们在生活中,早就不断利用冗余排除误差,最简单的例子就是:重要的事情说三遍。
可能我们自己都没注意到,不管是说话,还是写文章,越是重要的事,越容易有很大的冗余度。
比如:有时候一个意思要翻过来覆过去,甚至变着花样地说好几遍,就像坤鹏论前面讲信息熵那样。
但是,这样的好处是确保别人即使有几个字没听看清楚,也知道什么意思。
相信,每个人年轻的时候,都特别烦爸妈在耳边不断重复的教诲。
可是,也正是这种不厌其烦的重复,总会留下痕迹,并潜移默化地产生了影响。
不信?
那么,如果不是因为记得爸妈说过的话,你又有什么可以不信呢?
自香农之后,所有信息编码系统都必须考虑出错和纠错的问题,而它们使用的基本原理就是香农说的增加冗余度。
从这里,我们应该悟出一个道理,如果希望别人充分理解你表达的意思,最好的办法不是用更大声音,而是重要的事情说三遍!
本文由“坤鹏论”原创,转载请保留本信息
注:坤鹏论由三位互联网和媒体老兵封立鹏、滕大鹏、江礼坤组合而成。坤鹏论又多了位新成员:廖炜。即日起,坤鹏论所有自媒体渠道对外开放,接受网友投稿!如果你的文章是写科技、互联网、社会化营销等,欢迎投稿给坤鹏论。优秀文章坤鹏论将在今日头条、微信公众号、搜狐自媒体、官网等多个渠道发布,注明作者,提高你的知名度。更多好处请关注微信公众号:“坤鹏论”微信公众号:kunpenglun,回复“投稿”查看,自媒体人可加QQ群交流,群号:6946827
最新评论