信息熵,即Kolmogrov熵
http://www.swarmagents.cn/thesis/detail.asp?id=268
柯尔莫哥洛夫熵(以下简称K熵)是刻划混沌系统的一个重要的量。在不同类型的动力学系统中,K熵的数值是不同的。K熵的数值可以用来区分规则运动、混沌运动和随机运动。在随机运动系统中,K熵是无界的;在规则运动系统中,K熵为零;在混沌运动系统中,K熵大于零,K熵越大,那么信息的损失速率越大,系统的混沌程度越大,或者说系统越复杂[3]。
说来惭愧,Jake大人一直强调要认真阅读文献,说了很多年,贫僧直到最近才开始真正开始阅读。平均大概一天花1个小时的时间,平均可以读7-8页论文。例如过年以来大概二十多天,读了十多篇论文吧。上面这篇是幂律分布的经典论文,有28页。用三天时间通读了一遍。诸位如果对幂律、分形等现象感兴趣,或者研究方向同这个领域有关,那么读一下上面这篇论文,再看一些科普,包括计算士、贫僧写的那些东西,基础知识应该就差不多了。
相对而言,幂律在科研中间是很通俗的一个领域,真的是老太太都能懂,但是要说清楚中间的根本原因,就很难了(这篇论文基本上就是幂律现象的解释,少说也有十几种,当一个现象有十几种解释的时候,那就跟没有解释差不多)。
下面是心得,首先读完以后,感觉大部分的内容都在科普书里面看到过,没有什么新的东西,原来懂的东西还是懂,不懂的东西科学家也不懂。比如说上次提到的“怎么确定一个现象是幂律分布”,虽然有各种各样的拟合,但是究其实际,还是在图上画线而已。不存在一个验证方法,可以通过主动式的实验,比如施加一个随机扰动然后观察结果,以确定系统的分布是否是幂律。
其次计算士没有提到的自组织临界,这也是一种很有趣的现象,在《复杂》以及很多科普书里面都有说到。这里也提一下,就比如森林里面有好多树,有的连在一起,有的不连,一旦着火(譬如随机丢下的闪电,烟头之类),那么所有的跟着火点连在一起的树丛都会被烧掉,不连的树就没事。
可想而知,如果树丛太密,那么整个森林都会被烧掉,所以不可能长到这么密,随着树的不断生长,最后就会达到一个平衡点(也叫临界点);再密下去,烧掉一大片的可能就变的很大,森林就会变疏,故而森林密度总是在临界点上下波动的。这也是幂律分布的成因。
同时,自组织临界有两个事情值得注意,一个就是这种临界是无尺度的,也就是如果树林“联通”了,那么无论在大的尺度和小的尺度它都是联通的,因此就可以把尺度放缩下的联通性不变当作已知条件,通过“缩放”(也叫重整化)把这个临界点(也就是幂指数,分形维度)求出来。不知道为啥,重整化似乎是一种非常有用的工具,从玻尔兹曼开始就喜欢用这种方法,重整化到底意味着什么呢?
另外一个就是假如森林不是自然形成的,而是人工栽培的,这个人应该怎么样种树,才能产量最大呢?如果他把树密密的种一起,那么一把火就烧光了,肯定不行。但是如果间隔的太开,又会有太多的空地被浪费了。所以答案就是完全按照自然形成的自组织临界点去种!这种情况下人的参与似乎不会增加产量,这是很有意思的,而且幂律似乎都在两种力量的斗争下产生,比如这里的着火和产量的斗争,再比如语言学中Speaker和Listener的斗争,这也是很堪回味的道理。
另外还有一条新的思路:
是用信息熵最大解释幂律现象的,论文里面没有提到,这里略微介绍一下:
先看一下所谓的信息熵,即Kolmogrov熵(Kolmogrov乃是神人,据说他原来是学历史的,后来听说要证明一个历史事实需要许多证明,数学只要一条就够了,于是改学数学;苏联大学规定,如果曾在一门学科上发过论文,做出贡献,则可免试,结果他大学一次考试也没有参加……):K熵可以理解成某种压缩比的极限,什么意思呢?比如一辆汽车的设计图是10万字,现在你用1千字就讲清楚了,那么压缩比是100倍,K熵就是0.01。现在假设把世界上的一切东西的描述都交给你让你压缩,这时候的压缩比极限就是K熵。容易晓得K熵是在0和1之间的,因为最坏情况下,你发现原来的描述已经非常精妙了,一个字也不能少,只能照抄一遍,这时候的压缩比就是1。
用这种方法来解释幂律是很容易的,所谓统计性质下K熵不变导出Zipf律,其实就是说:随便你怎么选取个体的排列顺序,压缩比都是一样,也等于是说你用出现概率(也就是信息熵)去看待这个统计样本,没有什么特别好的排列顺序,可以让你用更短的描述,把这个样本说清楚。这就是固定几何平均!
换句话说,就是一大堆数乘起来是一个定值,你可以把这些数看成概率,几何平均值是定值就是说每一个个体之间都没有特殊的联系,因此不管你用什么方法去抽取,拿到一个以后再拿到任意另外一个的机会是相等的,当然也会得到同样的幂律分布。
从信息的角度看,之所以幂律会在很多不相关的现象中出现,只是因为这些现象从信息量上看,都是不可压缩的,比如英文单词,你很难说这个顺序就比那个顺序容易记忆,城市人口,地震烈度等等当然也是如此。从这个角度看,Zipf律就是随机分布的另一种表现而已,看似好像有规律,实际上一点规律也没有。具体到每一个现象,出现Zipf律的理由是可以完全不同的,需要具体分析。