当信息可以度量,意味着几乎所有事物都能够用数据测量和编码,因为归根结底,一切都与信息脱不开关系。
——坤鹏论
信息论,这个也是我们必须明白的定义。
否则,当你看到那些写香农和信息论的文章后,完全会被搞晕。
一、八年磨一剑
1.从小痴迷密码学,狂热喜爱发明
1916年4月30日,克劳德·香农出生于美国,从族谱上论,他还是发明大王爱迪生的远房亲戚。
他的祖父是一位拥有农场的发明家,曾发明过洗衣机与农用机械。
受到祖父的影响,香农小时候对机械和电气电子表现出了极大爱好。
他学的最好的学科是科学和数学,并在家中制作了模型飞机、无线电控制的模型船和一个可与半英里内的朋友家联系的无线电报系统。
香农从小就喜欢博弈和谜题。
少年时他读了埃德加·爱伦·坡的侦探小说后,就被密码学深深吸引。
自此,他最乐此不疲的是钻研抽象符号,甚至在学生时代曾对未来成为工程师还是数学家犹豫不决。
总的来说,香农一生是丰富多彩的,这得益于他的兴趣广泛。
他还喜欢杂耍、喜欢发明古怪而有趣的设备,比如:电动弹簧单高跷、火箭动力飞盘、杂耍机、会闯迷宫的机器老鼠(香农将其命名为忒修斯)、会下象棋的计算机等。
并且,他还是一位狂热的独轮车爱好者,除了经常骑独轮车,还喜欢设计和制造各种稀奇古怪的独轮车。
牛人就是牛人,搞科技玩发明,跟玩儿似的!
有本香农的传记名字起得相当妙——《游戏之心:克劳德·香农如何开创信息时代》!
1936年,香农进入麻省理工大学开始了研究生生涯。
并有幸进入到了范内瓦·布什的微分分析机项目组。
顾名思义,分析机是一种解析微分方程的机械计算机。
它占地面积差不多有二三十平米,看上去很像一台印刷机,设置有数百根钢轴,然后由电机驱动钢轴来完成运算。
它也需要编程,但和今天写代码不一样的是,它需要用锤子和扳手改变齿轮比来完成。
所以,那时候,编程除了脑力劳动外,还是一个体力活,是名副其实的码农,乃强身健脑的不二之选。
后来,范内瓦·布什引入了继电器与开关来完善编码。
二战期间,微分分析机广泛用于军队,用来计算火炮弹道。
正是由于加入微分分析组项目的经历,让香农发现,继电器、开关和自己大学时研究的布尔代数之间有着紧密联系。
如果把布尔代数中的“真”、“假”逻辑符号与继电器开关结合起来,不就是计算机二进制中的0和1吗?
布尔是19世纪英国逻辑学家,他认识到,任何复杂的逻辑都基于少数几个简单的逻辑——比如AND(与)、OR(或)、NOT(否) 和 IF(如果)。
香农则进一步证明了,这些简单的逻辑功能都可以通过电子线路的开/关来执行。
这一发现意味着,从理论上说,任何复杂逻辑都可以分解成几个简单逻辑,然后由一套能表达或执行1/0(开/关)——或用逻辑学的术语说:真/假——的二进制装置来完成。
这个发现在人工智能方面可谓是飞跃式的发展,影响极其深远。
而电子线路可以执行逻辑运算的思想,就是目前整个计算机科学的基础。
而前面提到的机器老鼠——忒修斯,其本质也是用二进制逻辑工作的。
它能通过不停地随机试错,穿过一座由金属墙组成的迷宫,直到在出口处找到一块金属的“奶酪”。
最厉害也最具独创性的是:忒修斯还能记住这条路线,在下一次试验中能漂亮地完成任务。甚至在下一次任务中,迷宫的墙壁有所移动,都难不倒它。
忒修斯由隐藏在它身体里的磁铁和马达驱动,但掌管它记忆功能的存储器却由隐藏在迷宫各处的75个继电器组成。
继电器的功能很简单,只有两个——开/关。
1938年,香农将他的研究与发现写成硕士毕业论文。
这篇名为《继电器与开关电器的符号分析》的论文奠定了今天数字电路的理论基础。
哈佛大学的霍华德·加德纳教授说,“这可能是本世纪最重要、最著名的一篇硕士论文。”
就在该论文震惊美国,并掀起数字电路革命的时候,范内瓦·布什建议香农把自己的研究与孟德尔的遗传学结合起来——以数学方法分析遗传。
不到一年时间,,香农就已经学会了足够多的遗传学知识。
1940年,他凭借《理论遗传学的代数学》论文获得了麻省理工大学博士学位。
这是一篇精妙的却过于理论化的论文,对遗传学家来说借鉴意义不大。
但是,香农的这段经历,证实了他是一个天才,他能通过抓住事物本质,然后快速掌握一个新学科的知识,并从中创造出有意义的数学。
正如《游戏之心:克劳德·香农如何开创信息时代》一书总结的:
“他善于从大问题中提炼出核心实质。”
范内瓦·布什也是美国历史上一位科学伟人,他赏识香农的才华,指导他直到研究生毕业。
这里坤鹏论插几句香农其他方面的轶事。
首先,他被称为贝尔实验室第一聪明,第二聪明则是创造凯利公式的凯利。
而凯利公式就是在香农的信息论影响之下搞出来的。
凯利证明了,信息论中的数学运算同样适用于贪婪却谨慎的赌徒。
坤鹏论则认为,凯利公式还揭示了,不管是赌博,还是投资,其实都是信息。
其次,香农当年还是投资大师,炒股高手,擅于采用套利的手法,迅速赚取财富。
1986年8月11日,著名的《巴伦周刊》曾汇总了1026家共同基金的近期表现,香农取得的收益高于其中的1025家,其实就是排名第一。
他还曾公开介绍过一种投资方法,操作极简,理论上靠谱。
再就是,他还曾与另一位科学家兼21点赌神爱德华·索普一起开发轮盘赌预测系统。
结果,两人真的成功地研发了一套预测轮盘赌结果的算法。
可是,如果要在赌场运用这套计算系统,还需要配备迷你的计算设备和通讯设备。
后来,香农和索普居然开发了一个可以放在鞋子里的小型计算机,算是人类第一台可佩戴计算机了。
不过,由于当时的技术限制,索普那个不知道为了科研还是想靠轮盘赌发家致富的梦想还是落空了。
有关香农这些方面的轶事,请看:
《来自象牙塔里的出击 一文看懂投资组合理论(上)》;
《它是能让你最快速成为亿万富翁的财富公式!》。
在获得了麻省理工学院数学博士学位后,1940年,香农加入到贝尔实验室数学部,并从事与战争相关的工作——研究火力控制系统和密码学。
二战期间,香农曾是一位著名的密码破译者。
他在贝尔实验室的破译团队主要追踪德国飞机和火箭。
他还用数学推导了所谓X系统的安全性。
这个X系统是指英国首相丘吉尔和美国总统罗斯福之间的专用电话线路。
1945年,二战进入尾声,美国的国防研究委员会在正式解散之间,决定将所有重要研究成果整理成册。
其中有一篇论文《火力控制系统的数据平滑和数据预测》是香农和拉尔夫·比比·布莱克曼、亨德里克·韦德·博德一起写的。
后两个人同样被公认为信息时代的先驱。
该文中的思路和“通信系统中将信号和噪声相分离”是类似的。
也就是说,香农在火力控制系统研究中已经发现了后来成为信息论的基本概念和框架体系。
二战时,香农在密码学领域的研究与通信领域的关系更加密切。
1945年,他向贝尔实验室提交了一份备忘录——《密码学的一个数学理论》。
后来,1949年,他根据备忘录又发表一篇重要论文——《保密系统的通信理论》。
这篇论文开辟了用信息论来研究密码学的新思路,使其成为近代密码理论的奠基者和先驱。
这一发现震惊学术界,波士顿环球报称“这一发现将密码从艺术变成为科学”。
《保密系统的通信理论》发表后,香农被美国政府聘为政府密码事务顾问。
纵观最近几十年来密码领域的几个重大进展,它们都多多少少与香农这篇论文提出的思想有着密切关系。
可以说,《保密系统的通信理论》奠定了现代密码理论的基础。
讲上面这段信息,坤鹏论想告诉大家的是,正是对密码系统的实践和研究,使香农领悟到:“从密码分析者来看,一个保密系统几乎就是一个通信系统。待传的消息是统计事件,加密所用的密钥按概率选出,加密结果为密报,这是分析者可以利用的,类似于受扰信号。”
他认为,密码系统中对消息的加密变换的作用,类似于信息中存在的噪声。
密文相当于经过有扰信道得到的接收消息,密码分析员相当于有扰信道下原接收者。
而且,我们在《香农说,信息是能够用来消除不确定性的东西》中理解了压缩的原理后,再看待加密就不那么复杂了。
想想有些电影中的情节,这边收到密电,必然要用一个译码本来对照译出密电的内容。
还有用《圣经》当译码表,甚至还有用哪天的哪个报纸做为译码表等。
这些方法的本质其实都与压缩的原理一样。
2.发表惊世之作——《通信的数学原理》
1940年,香农成为普林斯顿高级研究所担任研究员。
他在那里有很多机会与当时最有影响力的科学家和数学家交流,比如:阿尔伯特·爱因斯坦、赫尔曼·外尔和约翰·冯·诺伊曼等。
也是那时候起,他开始思考有效通信系统的问题,现代信息论的思想逐渐在他脑海中成型。
经过8年的努力,终于在1948年6月和10月,《贝尔系统技术杂志》连载了香农具有深远影响的论文《通信的数学原理》。
该论文由香农和威沃共同署名。
威沃当时是洛克菲勒基金会自然科学部的主任,他为论文写了序言。
后来,香农一直从事技术工作,而威沃则专注研究信息论的哲学问题。
1949年,香农又在该杂志发表了另一著名论文——《噪声下的通信》。
在这两篇论文中,香农阐明了通信的基本问题,给出了通信系统的模型,提出了信息熵的数学表达式,并解决了信道容量、信源统计特性、信源编码、信道编码等一系列基本技术问题。
因此,《通信的数学原理》和《噪声下的通信》被认为是信息论的奠基性著作。
有人认为,《通信的数学理论》是个支点,整个地球都将因此而被撬动。
二、什么是信息论?
现在信息论的定义是:运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。
不过,当初作为电气工程师的香农的初心比较简单——把电话中的噪音除掉。
1948年,他又开始特别关注电视信号,想着用某种手法打包和压缩电视信号,从而能够更快地进行传输。
在香农发表《通信的数学原理》和《噪声下的通信》前,人们普遍认为,以正速率发送信息,总会不可避免地产生误差。
但是,香农的论文证明了,只要通信速率低于信道容量,总可以使误差接近于0。
该结论震惊了整个通信理论界。
信息论最初主要解答了通信理论中的两个基本问题:
第一,临界数据压缩的值(信息熵公式,答案:熵H);
第二,临界通信传输的速度的值(香农公式,答案:信道容量C)。
论文中,香农证明了,实际上任何信道的信息传输速率都存在一个最大值。
假设信道干扰是由白噪声造成的,香农给出了一个由带宽和信噪比计算出最大信息传输速率的简便公式。
用该公式计算出来的信息传输速率是一个锐利的极值,意味着我们可以无限逼近这个极值,却永远无法超越它。
同时,任何数据传输都难免出错,比如:随机地把0接收成了 1 ,或是反之。
香农证明,如果信息传输速率小于计算出来的信息传输速率最大值,就存在发送数据(通过对传输进行编码)的方法,能让出错的概率任意小。
不过,他只提出了理论,并没有实践具体方法。
但是,正是有了这个理论的指导,奠定了之后的数据压缩算法。
更为重要的是,香农还进一步讨论了诸如音乐和语音等随机信号都有一个不可能再降低的复杂度。
当到达这个值时,信号就不可能再继续压缩,因为再压缩的结果就是无法还原。
他将这个临界值命名为信息的熵,并且讨论了当信源的熵小于信道容量时,可以实现渐近无误差。
香农的信息论首先用在了电话上,后来又被用到光纤,再被用在无线通信上。
20世纪70年代以后,随着计算机广泛应用和社会信息化迅速发展,信息论也逐渐突破香农狭义信息论的范围,发展为一门不仅研究语法信息,而且研究语义信息和语用信息的科学。
本文由“坤鹏论”原创,转载请保留本信息
注:坤鹏论由三位互联网和媒体老兵封立鹏、滕大鹏、江礼坤组合而成。坤鹏论又多了位新成员:廖炜。即日起,坤鹏论所有自媒体渠道对外开放,接受网友投稿!如果你的文章是写科技、互联网、社会化营销等,欢迎投稿给坤鹏论。优秀文章坤鹏论将在今日头条、微信公众号、搜狐自媒体、官网等多个渠道发布,注明作者,提高你的知名度。更多好处请关注微信公众号:“坤鹏论”微信公众号:kunpenglun,回复“投稿”查看,自媒体人可加QQ群交流,群号:6946827
最新评论