不理解是理解的开始,最怕的是,你连理解都不想去理解。
——坤鹏论
昨天,坤鹏论在《什么熵?什么信息熵?都不过是概率下的蛋!》中提到了,不管是热力学的熵,还是信息论的熵,都因为抓住了这个世界背后运转的真理——概率,所以才会有如此巨大的成就。
有人对此还不理解。
没关系,不理解是理解的开始。
最怕的是,你连理解都不想去理解。
人生最好的财富永远是智慧而不是金钱,金钱和它,对人的意义随着年龄增长此消彼长。
基本可以肯定的是,人越老,智慧越重要。
既然概率如此重要,那么,香农是如何对语言系统的概率进行统计的呢?
为此,坤鹏论特意进行了学习,并Get到了一个新知识——统计结构。
今天就大致分享给大家。
借此我们还可以体会概率的魅力,以及香农天才般的洞见。
一、温故:信息论的两个伟大结论
前面介绍过,1948年,香农在论文《通信的数学原理》中提出了两个堪称伟大的结论:
第一,信道容量是任何信道的信息传输速率的上限(现在被直接称为香农极限,香农直接给出了计算公式);
第二,只要信息传输速率没有超过该上限,就总是存在一种纠错编码方案,可以克服任何程度的噪音,使得错误概率任何小。
虽然,发送者可能需要越来越多的比特用来纠错,并使传输速率越来越慢,但讯息最终总能完成传递。
尽管香农并没有指出如何设计这样的编码方案,并只证明了这种方案是可能的。
但是,就像基础科学貌似枯燥无用,却永远是科技大厦的地基。
它们如果漆黑中的一盏明灯,始终为人们照亮着前行的正确道路。
后来,几乎所有现代通信理论都是基于香农的这两大结论。
而香农能够获得如此巨大的成就,也在于他抓住了这个世界运转的本质——概率,并进行了必要的研究。
什么样的研究呢?
可以说,无论是消除冗余以提升效率,还是增加冗余以纠正错误,以及编码方案的设计,都要依赖于语言系统统计结构的研究与分析。
二、什么是统计结构分析?
统计结构分析,就是用统计的方法对概率进行研究和分析,最终给出推断或预测。
坤鹏论在《“熵”晦涩难懂?那是因为没学习这几个名词!》专门讲过统计这个词。
从字面上,其实就很清晰:
统——总括,总起来;
计——计算;谋划;考虑;考察。
说白了,统计就是尽可能收集所有与观察相关的数据,然后利用概率论建立的数学模型,进行量化计算,接着对结果进行分析和总结,最后进行推断和预测,为相关决策提供依据和参考。
“结构”是什么?
只有整体、系统才会有结构。
结构,组成整体的各部分的搭配和安排。
将“统计”和“结构”的定义连在一起,我们就能明白“统计结构”的主要意思了——对组成系统的各部分的搭配和安排进行分析。
而各部分的搭配和安排是如何形成的呢?
自然是概率。
所以,坤鹏论对统计结构分析的理解,就是对组成系统的各部分的概率分布进行研究和分析。
想想统计力学中的微观态和宏观态。
再想想信息论中语言系统的信息熵。
为什么热力学的熵和信息熵的公式一样?
因为它们的方法是一样的,都是将各部分的概率分布进行加权平均后,就是整个系统的状态。
因此,不管是统计力学,还是信息论,它们都要先汇集组成系统的各部分的概率,虚拟地将它们组合到一起,构成一个看不见、摸不着的系统的另一个状态。
这个状态全由概率组成,可以称为概率的空间。
到这里,我们就可以得出统计结构分析的基本步骤:
首先,作为概率研究的出发点,先要构建一个带有随机性的事物的概率的空间,其中包含着该事物所有可能的概率的分布状态;
接着,用统计的方法(主要是数学模型)研究这个概率空间的各种状态,再加上人们对它的一些认识,形成数理统计研究的出发点;
然后,通过分析,对所考虑的问题作出统计推断或预测。
如今,统计结构分析法被广泛应用到其他学科,比如:社会科学等。
它已经成为一种通过剖析系统内在结构认识系统特性及其本质的思维方法。
其实,坤鹏论一直推崇的“总—分—总”分析法,就算是统计结构分析法的通俗版。
对事物按一定的分类方法拆解成最细小的零件,然后再汇总出事物的本质特征,并据此找出应对策略以及方法。
在有了策略和方法后, 继续对策略和方法一一地进行“总—分—总”,最终一般都能得到最优解法。
通过统计结构分析的定义,我们不难发现它也揭示了统计力学的基本原理:
“宏观的物质(物体)由大量微观粒子,如分子、原子等组成,而物质的宏观特性(宏观态)是这些大量微观粒子作无规则微观运动(微观态)的集体体现,物质或物体的宏观物理量是相应微观物理量的统计平均值。”
到这里,坤鹏论已经明显感觉到统计力学已经在某种程度上与复杂性系统惊人相似了。
这也是我非常佩服玻尔兹曼的主要原因。
当年在还没有证明原子存在的情况下,他就坚信着原子论,认定了宏观由微观构成,宏观的表现总是微观整体平均值决定的。
换言之,微观决定宏观,而非宏观决定微观,但是,宏观会对微观有负回馈效应。
而且,玻尔兹曼还创造了伟大的熵公式,将概率引入进行统计分析,这让统计力学一问世,便笃定位列十九世纪物理学最高成就之一。
无它,只因为从概率入手,就相当手握、背靠着最伟大的法则,不牛才怪!
三、相空间、集合与大数法则
上面说的概率空间,在数学和物理学中被称为相空间。
它包含了一个系统所有可能的状态,每个可能的状态都有一个相对应的相空间的点。
相同空间这个概念到了信息论后,被香农称为集合。
也就是某个事物所有信息的集合,一条确定性的信息会减少这个集合的熵。
有人说了,分子、原子不计其数,你怎么可能算得清?
就算是语言系统,虽然字母、单词并不像分子那么数不清,但是,人类创造的信息却一样浩如烟海呀!
好在天才雅各布·伯努利为概率论贡献了伟大的大数法则。
他当年研究出这个法则,就是为了解决在海量样本的情况下,如何用有限次的观察估计出实际比例。
“这个估计比例不完全准确,但从现实的角度而言已经足够接近。”伯努利自信地说。
四、香农如何做语言系统的统计?
从上面对统计结构分析的讲解,我们可以得知,这是个辛苦的工作,特别是那个计算机科学刚诞生不久的时代。
所以,也就不难理解,为什么香农曾对追信息论“时髦”并搭便车的人不满意,并表示,有些人连在“自家院子的工作”都没做,就出去借着信息论到处阐释自己理论。
“自家院子”指的是自己的专业领域。
工作呢?
主要还是统计工作。
我们已经知道,香农借鉴的是统计力学的方法论和术语。
统计力学的术语就是熵。
统计力学的方法论是什么呢?
就是统计结构分析的方法论。
更确定地说,就是研究随机过程的方法论(物理学中随机过程,小的如布朗运动,大的如恒星动力学等)。
什么叫随机过程?
就是存在概率的过程——下一个事件不能被确定性地计算出来,但也不是完全不受约束地随机发生。
那它受什么影响和支配呢?
绝绝绝大多数情况下,一个事件受到组成它的微观个体的平均概率支配。
同时,每个事件的概率,不仅可能取决于系统当前的状态,还可能取决于它此前的历史。
其实,在坤鹏论看来,当我们说现在和当前时,其实都已经是过去时了。
所以,1705年,雅各布·伯努利曾说出了一句极牛的概率名言:“在类似条件下,一件事情未来的发生(或不发生)频率将会与过去得出的情况保持一致。”
它其实就是统计、统计力学等学科成立的意义所在。
当然,就像《如果生命可以永恒 热力学第二定律就是个笑话》所说,如果你拥有无限,比如:无限的生命或是无限的金钱,许多所谓的法则和规律,就成了笑话。
所以,雅各布·伯努利也明确表示过,“就算你无法直接得知一件事的真实概率,也能在观察了足够多次的结果后大致估计出这件事的发生概率如何。”
请注意,他用的是“大致”一词,严谨呀!
而且,雅各布·伯努利早早就预言——概率论是人类了解高深知识的捷径。
其实何止是高深知识,保险、赌博、投资、诈骗……这些充满了暴利的生意或是违法犯罪,背后支撑它们的都是概率。
就像一直存在的诈骗电话,你可能会认为骗子怎么这么傻,因为那样的骗术,谁会信呢!
但是,人家骗子早就纯熟地运用了概率,特别是大数法则。
他们从一开始就清楚地知道,打多少电话会多少比率的人上当。
而且以前是这样的比率,现在也是,未来还会是。
每每想起写到时,坤鹏论都不自觉地对雅各布·伯努利心生崇拜之情!
让我们继续将话题回到语言系统的统计结构分析。
如果把“事件”换成“符号”,像英语或汉语这样的自然的书面语言,完全可以视为一个随机过程。
同样,量化后的语音和电视信号,也是一个随机过程。
香农先是完整地分析了电报。
学习到这里坤鹏论先补充几句,因为自己之前对电报的认知不够,在描述时不够严谨。
就像香农所指出的,电报并不是只有点、划两个符号。
它还有两种停顿:
字符间停顿;
词之间停顿。
停顿的作用和意义基本和英文单词之间的空格类似。
这样加起来,电报其实一共有四种符号,不过,它们的出现位置和出现概率并不均等。
香农在精确地推导出了电报系统信息内容和信道容量的正确方程式后,便将注意力集中到了讯息所使用语言的统计结构及其产生的效应上。
在接下来的研究中,他发现,正是因为语言中存在着统计结构,才使得人们能够节省时间,或者说可以节省信道容量。
比如:字母e的出现频率比q高,字母组合th出现的频率比xp高。
再比如:我们经常使用的那些缩略语——不明觉厉、细思恐极、人艰不拆等。
就像坤鹏论在之前讲过的,中文信息熵高,可输入信息多,很少的字就能使信息的确定性增强,所以,中文更倾向于精炼。
于是,中国的缩略语多如牛毛,最典型的非成语莫属,基本每个成语背后都有一个典故。
另外,还有各行业的专业名词也是典型代表。
香农发现,电报已经对语言的统计结构进行了有限应用。
例如:人们用最短的一个点来代表英语中最常见的字母E,用更长的点划组合代表比较罕见的字母Q、X和Z。
上面提到的是字母层面的统计结构。
但是,我们平时遇到的基本都是文本而非独立的字符。
如果是在普通文本中,对单词层面进行考察,显然比在字母层面上进行考察更合适。
而这时候就又有了新情况,香农发现:
在某些词之后的位置,有些单词的出现概率较高,但有些则几近于零;
在an后面,以辅音字母开头的单词的出现概率极小;
如果一个单词以字母u结尾,它很可能是you。
在一条包含“奶牛”一词的讯息中,即使后面隔了不少其他字符,再次出现“奶牛”一词的概率仍然相对较高。
香农认为,一条讯息就像一个动力系统,它的未来走向会受到过去历史的影响。
这就是我们常说的上下文关联度。
以上这些工作,都是建立在统计结构分析之上的,而香农为此做了大量的观察。
之前坤鹏论讲过,香农估计,英语内的冗余度约为50%,信息中每个字母所含的信息熵大致只有2.3比特。
如果考虑更大范围的统计效应,扩展到句和段落的层面,他估计冗余度能升高到75%。
但是,随着文本的长度增加,这种估计会波动得更剧烈,不确定性更大,并且严重地依赖于所涉及的文本类型。
为此,香农使用了类似心理学测试的方法来度量冗余度。
比如:他从书架上抽出一本书,随机指一个短小的段落,请其妻子贝蒂逐个猜其中的字母。
如果猜错了,他会告知正确答案,然后继续猜。
这个测试为的是量化语言系统的可预测性和冗余度。
香农发现,“错误最常出现在单词和音节的开头处,因为思路在这些地方有更多分岔的可能。”
这其实是度量信息内容的另一种方式,也是概率论的重要作用——猜!
如果一个字母能够根据先前的内容猜出来,证明它是冗余的,如果是冗余的,说明它没有提供新的信息。
1949年,香农用铅笔在一张纸上,自上而下画了一条竖线。
接着,他在线的左侧依次写下了10的幂,从10²到10¹⁴,他称这条坐标轴为比特存储容量。
然后,他在线的右侧对应写了一些可以用来储存信息的东西。
比如:10³,写上了打孔卡片;
比如:10⁵附近,写了人类的基因构成……
这简直有些神奇。
因为,詹姆斯·杜威·沃森当时才21岁,离他发现DNA结构的1953年还有几年。
这应该是人类首次提出,基因组是个信息仓库,并可以用比特来度量。
不过,跟着坤鹏论一路学习下来的朋友应该记得,1943年,薛定谔曾在一次讲座讲到了“生命以负熵为食”,并发明了“非周期性晶体”这个术语,作为遗产密码的大胆设想。
后来该讲座还被整理成了《生命是什么?》的小册子,被许多人认为,正是它引发了人类历史的一场生物学革命。
而且,香农确实涉猎过遗传学,这个在《香农八年磨一剑,磨出一个撬动地球的支点》讲过。
1938年,香农写出了硕士毕业论文——《继电器与开关电器的符号分析》。
被哈佛大学的霍华德·加德纳教授评价为:“这可能是本世纪最重要、最著名的一篇硕士论文。”
该论文掀起数字电路革命,并一举奠定了今天数字电路的理论基础。
后来,香农的导师范内瓦·布什建议他把自己的研究与孟德尔的遗传学结合起来——以数学方法分析遗传。
不到一年时间,香农就已经学会了足够多的遗传学知识。
1940年,他凭借《理论遗传学的代数学》论文获得了麻省理工大学博士学位。
现在,再看这张纸,显然香农的猜测还是偏保守,起码比后来的现实低了四个数量级。
比如:最上面的10¹⁴,他写下的是美国国会图书馆。
不过,话说回来,美国国会图书馆确实很牛,当年巴菲特想学赌马时,就请他父亲从该图书馆借相关的图书,竟然有400多本之多!
本文由“坤鹏论”原创,转载请保留本信息
注:坤鹏论由三位互联网和媒体老兵封立鹏、滕大鹏、江礼坤组合而成。坤鹏论又多了位新成员:廖炜。即日起,坤鹏论所有自媒体渠道对外开放,接受网友投稿!如果你的文章是写科技、互联网、社会化营销等,欢迎投稿给坤鹏论。优秀文章坤鹏论将在今日头条、微信公众号、搜狐自媒体、官网等多个渠道发布,注明作者,提高你的知名度。更多好处请关注微信公众号:“坤鹏论”微信公众号:kunpenglun,回复“投稿”查看,自媒体人可加QQ群交流,群号:6946827
最新评论