重复,在任何组织中都非常很重要。从宣传角度看,许多时候,不一定是事情本身大,只是它被重复的次数够多。

——坤鹏论

前两天,在《坤鹏论:人类是信息生物 万事万物存在的本质是信息(上)》和《坤鹏论:人类是信息生物 万事万物存在的本质是信息(下)》中我们充分讨论了信息的特征。

今天,坤鹏论主要讲几个与信息论、信息熵相关的基本概念,如果没有它们作为基础,理解后面的内容会比较困难些。

同时,再讲一下香农给信息的定义是什么。​

一、认识信息传输模型

在开始前,咱们首先得了解信息传输模型以及相关的几个名词。

它们对于后面理解信息论和信息熵至关重要。

坤鹏论:香农说,信息是能够用来消除不确定性的东西-坤鹏论

如图所示就是信息传输系统的基本组成。

它主要由信源、信道和信宿组成。

1.信源是产生消息的系统。

2.信宿是接收消息的系统。

3.编码器和译码器的作用是把消息变换成便于传输的信号形式。

再细分下去:

信源编码器——对信源的输出进行无损编码(或符合要求的有损编码)。

目的是减少信源输出信息的冗余,可以理解为压缩。

信道编码器——对信源编码器的输出进行编码,使得到的序列能够较好地在信道中传输。

一般会增加冗余来增强抗干扰性。

信道译码器——对接受的序列进行译码(解码),可以恢复一定的传输错误。

信源译码器——对信道解码器的输出进行译码(解码),恢复原始的信息序列。

译码其实就是编码的逆过程,同时去掉比特流在传播过程中混入的噪声。

利用译码表把文字译成一组组数码,或用译码表将代表某一项信息的一系列信号译成文字。

这样的过程就是译码。

4.信道,用来传输信息的信号的通道,是信号的传输媒质,作用是传输信号。

在实际通信中,信道就是传输的物理媒介,比如由明线、同轴电缆等固体介质所组成的有线信道,以及空气介质所组成的无线信道、还有由混合介质所组成的光纤信道等。

5.噪声在信息领域,又被称为干扰。

它是除了有用信号以外的一切不需要的信号,以及各种电磁扰动的总称。

噪声可分为自然噪声、人为噪声和内部噪声。

坤鹏论:香农说,信息是能够用来消除不确定性的东西-坤鹏论

二、学以致用,理解电脑和手机

其实,我们的电脑、手机,就相当于信息发送和接收一体机。

其中的CPU叫中央处理器,相当于人类的大脑,它负责读取指令,将对指令译码并执行指令。

不过,目前的CPU还不能完成所有指令的编译及执行,特别是声音和图像的压缩编码和译码工程比较大,因此也就有了声卡和显卡来专门负责声音和图像的压缩编码和译码,CPU则负责将相应的指令交付给它们来执行。

想想看,为什么玩游戏的电脑显卡要用高端的?

因为游戏的画面变化频繁,不仅是信息量大,而且对速度还有要求。

这背后都是对压缩的声音和图像信息进行编码和译码。

这就要求显卡,一是显示芯片的编译码能力强;二要显示内存要大,这样数据的中转站才够宽敞,才能同时处理更多的编译码操作。

同时,如果是玩网游,你家的网络宽带这个信道也要容量大。

如果电脑的CPU编译码的效率不行,自然就会影响信息发布的效率,导致声卡和显卡的延迟,如果显卡再不给力,延迟就会增加,如果带宽网速不够,那就是严重的卡顿。

目前,手机的CPU已经集成了显示的编译码能力,所以可以做得更加小巧,还能处理越来越多电脑才能完成的操作。

三、如何让信息传输得更快、更准?

在搞清楚了信息的传输模型后,其实大部分人都能说出怎么让信息传输得更快、更准。

这就是为什么坤鹏论一直强调,凡事先搞清基础概念以及本质的原因。

可见,在信息传输系统中,最关键的点就是信道。

它的容量决定着传输的信息量;而信道中的噪声(干扰)则影响着信息传输的质量。

那么,改善的方法无非是:

第一,不断扩大信道,使其容量增加,这样就能容纳更多信息在其中流动。

第二,尽量消减噪声,比如:把密闭性做得更好等。

第三,重要的事情说三遍,比如:在发送的信号中进行重复,这样准确率也会提升。

现实中对这三点的改进确实没有停止过。

比如:我们的宽带速度越来越高,千兆已经走入寻常家庭,手机也从3G到4G,再到5G,这些都是信道扩容;

而消减噪声呢,信道设备的不断更新升级自然就有这个原因。

还有用有线传输比无线传输更稳定,也是减低噪声干扰的原因。

重复,在任何组织中都非常很重要。

从宣传角度看,许多时候,不一定是事情本身大,只是它被重复的次数够多。

信息论之父香农曾说过,通信技术的主要矛盾就是传输速率与可靠性的矛盾。

不管什么时候,在信道质量不变的前提下,一味地提升数据传输速率,必然导致信号的失真,甚至完全识别不出来。

这个世界上,牛人都是从改变自己开始,正如芒格所说,要想得到什么,先得让自己配得上。

改变不了世界,就改变自己。

正如坤鹏论所说,不要整天改变这个,改变那个,其实我们常常连自己的孩子都改变不了。

所以,与其做无卵用且只能让自己越来越负面的抱怨,不如埋头做能够积累的事情。

这就是改变自己。

还有就是,想改变别人,也要先从改变自己开始,这就叫以身作则。

既然是传输信息,那么,信息才是这件事的本质、核心。

尽管以上三点都是好办法。

但是,都不如改变信息自己来得更加高效。

就说扩大信道,那可不是一张嘴就能实现的。

它牵扯到了服务商设备的更新换代,那是一项不小的工程,意味着时间、金钱的投入。

消减噪声也是一样的道理,绝对不是一蹴而就。

如果围绕信息,我们有什么办法呢?一起想想看吧。

首先,如果信道的容量是一定的,是不是可以让信息变得小些,这样不就能传输更多信息了吗!

其次,噪声是一种能量,信息也是一种能量,如果信息的能量大于噪声的能量,也就是我信息的嗓门比你噪声的嗓门大,噪声不就无法奈我何了吗!

同时,信息变小后,也能给重要事情讲三遍留出空间。

再次,信息变小这事是有利无一害,信道容量越大,噪声越小,它的效率越高。

最后,信息变小这事牵扯到成本最小,很长一段时间内只需要升级编码器和译码器的码表即可。

另外,在香农的信息论中,除了关于信息压缩的理论外,还提出了用重复的方式增加一定冗余来增强抗噪声的能力。

抗干扰是信道编码的基本目的,重复是信道编码的基本方法。

而如何重复,就是信道编码研究的重点。

香农对此的贡献非常重大。

那么,信息怎么变小?变小有没有界限?

坤鹏论:香农说,信息是能够用来消除不确定性的东西-坤鹏论

四、压缩是什么?

压缩的原理并不难理解,我们在日常生活中经常用。

就像维特根斯坦所说的,语言就像游戏,只要约定即可俗成。

其中缩略语就非常具有代表性。

我们国家的全称是“中华人民共和国”,7个字符。

但是,我们平时总是用“中国”,两个字符,省了5个字符。

如果再简单,还可以用“华”来代替,缩短了6个字符。

压缩也是一样道理——找出那些重复出现的字符串,再用更短的符号代表,从而达到缩短字符串,使文件更小的目的。

想想看,如果一篇文章中出现了1000个“中华人民共和国”,使用“中国”就能省出5000个字符。

如果用“华”代替,那就是省了6000个字符。

其实,只要保证对应关系,你可以用任意字符代替那些重复出现的字符串。

所以,从本质上讲,压缩的原理不复杂,它就是找出文件内容的概率分布,把那些出现概率高的部分替代成更短的形式。

所以,内容越重复,就能压缩得越小,比如"ABABABABABABAB"可以压缩成"7AB"。

不过,如果内容重复率小、毫无重复,就很难压缩了。

甚至当遇到均匀分布的随机字符串,往往一个字符都无法压缩。

比如:任意排列的10个阿拉伯数字——5271839406,无法压缩。

再比如,无理数(比如π)也很难压缩。

可见,压缩就是一个消除冗余的过程,相当于用一种更精简的形式,表达相同的内容。

可以想象,压缩过一次以后,文件中的重复字符串将大幅减少。

好的压缩算法,可以将冗余降到最低,以至于再也无法进一步压缩。

计算机系统中,压缩就是把文件的二进制代码压缩,把相邻的0、1代码减少。

比如:有000000,就可以把它变成6个0的写法“60”,从而减少该文件的空间。

坤鹏论:香农说,信息是能够用来消除不确定性的东西-坤鹏论

五、压缩的极限在哪里?

正如坤鹏论一直强调的,世间除了死亡外,都有概率。

而概率告诉我们,任何事不可能100%绝对,所以,压缩也是有极限的。

极限的唯一标准就是解压缩后没有错误。

套用香农的话,这就叫:压缩技术的主要矛盾就是压缩比率与可靠性的矛盾。

如果压缩得很小,但解压缩还原后面目全非,这种压缩是没有意义的。

从上面的例子,我们可以得出两个重要结论:

文件内容重复越多,说明其中字符的出现概率高,越具确定性,越有序,可压缩空间越大所需要的二进制位越短;

文件内容重复越少,说明其中字符的出现概率低,越不确定性,越无序,可压缩空间越小,所需要的二进制位越长。

香农为什么牛?

他牛就牛在了提出信息熵公式,这个信息熵可以度量文件内容的不确定性,于是也就:

度量出了文件占用的二进制位数;

度量出了文件的极限的压缩率;

而这些其实都是在度量信息。

历史上,凡是给出度量方法的,都能称之为伟大。

秦始皇统一了度量衡,被写进了历史课本。

你现在可能还不太理解,没关系,继续跟着坤鹏论学习香农。

六、香农的信息定义

对于科学而言,关键是要能够将术语进行数学量化,这样才能继续推进。

而量化之前的关键,则是先要精炼出一个术语。

就像热力学第一定律是(内)能,第二定律是熵。

术语就像一把通向相关科学领域的钥匙,想要打开它的大门,必须先得找到钥匙。

回首牛顿的时代,那时的物理学已经到了难以突破的地步。

恰恰是牛顿给一些古老但意义模糊的词,比如:力、质量、运动,甚至是时间,赋予了新的含义。

于是物理学就像打开了一扇大门,新时代便在这些烁烁散发着新鲜光芒的词汇中开启了。

可以说,以牛顿为代表的科学时代,可谓至今以来人类历史中科技最璀璨的时代。

牛顿将这些术语加以量化,以便能够放在数学方程中使用。

而在他之前,光是“运动”这个词的含义都像“信息”一样庞杂不清。

牛顿做的事就是用奥卡姆剃刀——剃掉一切复杂!

毫不留情地将其中绝大多数的运动类型扬弃掉。

正是这样的披荆斩棘,牛顿的运动定律才能适用,科学也才继续前进。

那么,该如何剃掉信息的一切复杂,从而能够进行数学度量呢?

这里我们要明白,香农的初心并没有现在我们理解的那么复杂。

他当初只是纯粹就通信的理论进行考虑。

解决的是信息传输中的核心问题——有效性、可靠性以及两者间的关系。

于是,他给信息的定义是:

信息,是能够用来消除不确定性的东西。

这个定义道出了信息的作用。

于是,信息不仅被剃得极为简洁。

更关键的是,它揭示了一种衡量信息的方法——使用能够消除不确定性的多少来衡量信息。

香农在进行信息的定量计算时,明确地把信息量定义为随机不确定性程度的减少。

这就表明他对信息更准确的理解是:信息是用来减少随机不定性的东西。

逆其定义的定义似乎更容易理解:信息是确定性的增加。

有人说,香农的信息定义比以前的认识有了巨大进步,但仍存在局限性。

因为严格讲,他并没有回答“信息是什么”这个作为一个定义概念必须回答的问题。

他的定义没有包含信息的内容和价值,只考虑了随机的不定性。

是的,这确实是问题。

但是,就像前面所说的,我们要明白香农的目的是什么。

他只是为了解决一些实际问题。

香农不是神。

那么多哲学家、科学家都无法给信息以完美定义,凭什么要求人家一位电气工程师呢?

如同“人”一样,“信息”的内涵太丰富,外延太铺张,作为一个概念,真的很难准确定义。

在为信息明显了定义后,香农还为其指定了衡量的单位——比特。

“用于测量信息的单位”,他如此写道。

自此,信息成了一种可测可量的东西。

坤鹏论:香农说,信息是能够用来消除不确定性的东西-坤鹏论

七、什么是比特?

最后,坤鹏论再补充解释一下什么是比特。

比特是英文bit的音译。

而bit又是Binary digit(二进制数位)的混成词。

比特一词的发明者是美国著名数学家、统计学家、拓扑学家约翰·维尔德·图基,他也曾在贝尔实验室工作过。

坤鹏论查了查发现,这位牛人一生创造了不少名词,其中以统计术语居多。

该词诞生的时间有说1943年,还有说1946年,但比较权威的说法应该是1947年。

不过,它首次被公开正式使用,还是在香农1948年发表的《通信的数学原理》论文中。

比特,是在电子储存硬件中的一个位。

它的值是由电位来决定的,所以只有1和0、开和闭两种情况。

这是因为电子硬件本身的物理性质决定的。

最早期的计算机并非二进制,但是,这导致其元器件的生产设计难度增大。

冯·诺依曼提出了以二进制开和关来构成的冯氏计算机,此后由于优越性,计算机的底部构成变为了0和1,bit位也是如此。

另外,我们日常所说的1字节(英文byte)由8比特组成,1Byte=8bit,也就是1:8的对应关系。

而经常使用的MB则是英文“MByte”的简写,其含义是“兆字节”,读作“兆”。

请注意,MB与Mb是不同的,Mb是Mbit的含义是“兆比特”。

所以,在书写单位时一定要注意B字母的大小写和含义。

坤鹏论:香农说,信息是能够用来消除不确定性的东西-坤鹏论

当在用Bytes/s和bits/s来表示网速时,请注意它们的关系是:1MB/s=8Mbps=8Mb/s。

MB/s:每秒传输的兆字节数的数量;

Mbps和Mb/s:每秒传输兆位(比特)的数量。

比如:目前5G网络的理论下行速率为10Gb/s(=10Gbps),其实也就等于是1.25GB/s(10Gbps÷8=1.25GB/s),这个网速也就是显示在我们手机状态栏中的数据。

因为比特表示数字信号数据的最小单位,所以网速一般都用bit/s来表示也就不难理解了。

而且,Byte(字节)实际上只有在表示数据存储时才有意义,因为传输中的数字信号并不是必然按照8比特为1组来计量的。

不过,在实际生活中,MB/s的单位才更为方便我们对网速的理解,因为它是和数据存储容量直接挂钩的。

当然,知道了MB和Mb的区别,你也就知道该如何清楚如何换算了。

本文由“坤鹏论”原创,转载请保留本信息


注:坤鹏论由三位互联网和媒体老兵封立鹏、滕大鹏、江礼坤组合而成。坤鹏论又多了位新成员:廖炜。即日起,坤鹏论所有自媒体渠道对外开放,接受网友投稿!如果你的文章是写科技、互联网、社会化营销等,欢迎投稿给坤鹏论。优秀文章坤鹏论将在今日头条、微信公众号、搜狐自媒体、官网等多个渠道发布,注明作者,提高你的知名度。更多好处请关注微信公众号:“坤鹏论”微信公众号:kunpenglun,回复“投稿”查看,自媒体人可加QQ群交流,群号:6946827