
http://www.douban.com/note/31494353/ 【jake的问题】 首先转述一下jake写在集智俱乐部的问题 http://www.swarmagents.cn/bs/forum.htm 单位长度的线段上随机分布n个点,求这些点分割出的线段长度的分布。 答案是指数分布,jake给出的解释也非常漂亮:所有线段的总长度守恒,这类似于一团气体分子总能量守恒,根据玻尔兹曼定理知道,动能的分布满足指数分布,所以线段长度的分布满足指数分布。 【永和大王中的讨论】 昨天晚上,集智俱乐部活动结束后在永和大王吃饭。其间又谈到这个问题,这次jake说到了更多有意思的东西,例如通过最大信息熵来导出指数分布幂律分布还有正态分布。这篇文章的后面我给出了最大信息熵导出指数分布和幂律分布的过程。 【更多思考】 1.为什么要最大化熵? 考虑jake那个分割线段的问题,我认为最大化熵产生的分布就是这个问题最可能的分布,但是如何求出这个问题最可能的分布我没做出来。 2.其实这个问题的前提是模糊的,问题只是说在单位长的线段上随机布点,但是没有明确说明这些点满足什么分布。 一开始我认为,无论线段上的点以何种方式分布,只要点足够多最后分割产生的线段的长度就满足指数分布,这种想法让我联想到中心极限定理,也颇为激动了一把,但是事实并非如此。 只有均匀分布的时候,分割产生的线段的长度才能够满足指数分布。 但是对于线段上点的其他分布方式,尽管可以选择差别很大的分布方式,最后产生的线段长度的分布和指数分布十分接近,但绝对不是指数分布! 【为什么均匀分布?】 要回答最好还是回到物理对应上来,回想一下,一坨气体动能分布满足指数分布是有条件的,这个条件就是这坨气体达到热力学平衡,平衡的条件之一就是这坨气体在空间上的分布是均匀的。Jake的问题中只有均匀分布才能产生指数分布就不是很奇怪了。(事实上依然可以利用最大化信息熵的办法,来导出均匀的空间分布) 【为什么十分接近指数分布?】 回想物理里面局部均衡的概念,局部均衡的概念给回答这个问题提供了启示。如果将线段均匀分成十段,统计每一段内的所有线段的长度分布,你会发现结果更加接近指数分布。 【回顾】 如果你的确耐着性子看完了前面的所有内容,你会有一种被带着兜圈子的感觉。的确对于这个问题的理解并没有真正的进展,前面很多的内容都是在用我们熟悉的现象(也就是物理现象),来理解我们遇到的新现象,但是为什么会出现这种现象还是没有进展。 图中两个不同的线段长度的积累分布对应着不同的,点在线段上分布的方式。红线是积累分布的上下界 4人推荐 2009-04-19 17:07:26 pem 如果用算法生成服从某个分布的随机变量,可以用Metropolis算法 http://en.wikipedia.org/wiki/Metropolis_algorithm 不知道和你们说的是不是一回事 2009-04-19 17:18:56 xqc 两个小小的comments: 1)我想不是因为线段的总长度守恒,或者一团气体分子总能量守恒导致了微观状态的指数分布,而是因为所有小线段长的平均值为一定值 (取决于撒点的密度了),或者气体分子的平均动能为一定值(系统到达平衡状态,系统宏观状态由某一具体温度 T 表征)。 也就是说,上面的第一个约束条件起决定性作用。 第二个约束条件,即概率归一化,为自然约束条件。 2)关于应用最大化熵来求解上述分布,Jake 有一篇更详细的读书笔记: “最大熵产生原理系列论文的读书笔记”: http://www.swarmagents.cn/bs/membership/viewelite.asp?id=8647&user=jake&cid=17 2009-04-19 18:49:13 xudong 多谢推荐哈! 不过似乎不太一样 能稍微说明一下吗? 2009-04-19 17:07:26 pem 2009-04-19 19:08:16 xudong 1)均值和守恒其实的等价的 2)多谢推荐哈,那篇文章很早就拜读过了,当时很想搞清楚最大熵产生。 Jaynes的文章体系十分优美漂亮,理解起来相对简单 第二篇的综述读的比较纠结,详细了解了最大熵产生在全球气候预测以及涡均衡分布这两个实际的应用,但还是觉得这个概念很难把握,不容易将它用到一些问题当中,现在这方面没什么进展。 这篇文章有两个地方需要注意: 1)线段上点的分布不是随意的,只有均匀分布才能够产生线段长度的指数分布 2)通过最大化熵得到指数分布,并不是正式的推导,而只是通过物理对应来理解,实际的推导期待牛人给出 2009-04-19 17:18:56 xqc 2009-04-19 20:14:03 xqc 1)当然了,必须是完全随机撒点才能产生指数分布了。因为完全随机撒点导致这样的情况:我们取任意长度的子线段,例如 1/15, 1/2, 5/7, 17/19 等等, 在此线段内所有小线段的平均值都为定值。 也就是说,只有当完全随机撒点的时候,这个系统才是一个“自平均”系统。处于平衡状态下的理想气体正是这样的系统,因而最后的微观状态分布 (微观能量,线段长度)的分布满足指数分布。这样,最关键的一点就是系统需要具有自平均属性,也就是上面的约束1. 总长度守恒并不一定导致自平均属性,正如文中所说 “对于线段上点的其他分布方式,尽管可以选择差别很大的分布方式,最后产生的线段长度的分布和指数分布十分接近,但绝对不是指数分布!” 2)通过最大化熵得到指数分布,为什么不是正式的推导?呵呵~~~ 2009-04-19 21:54:40 xudong 关于1),似乎我们说的是同一件事情,能给出“自平均”的严格定义吗? 关于2)有两个问题: 1.为什么要最大熵呢? 2.最大熵的求解过程中没有用到均匀分布的条件。这种求解过程暗示线段长度的分布和点在线段上的分布无关,也就是说无论点在线段上是均匀分布还是其他什么分布,最后线段长度的分布都满足指数分布。但这是错误的! 产生其他分布的例子(matlab): mod(0.1*randn(1,10000),1) rand(1,10000).^2 ========== 2009-04-19 20:14:03 xqc 2009-04-20 00:46:42 xqc “为什么要最大化熵?”这个问题估计没法回答,正如“为什么这一切会存在?”,一直要问到底的话,就到了哲学层面了,难以说清。 在最大化熵的求解过程中使用的约束1 (线段的平均值为 \niu) 就是用到了均匀分布的条件。(在完全随机撒点,即均匀分布的情况,才有此约束) 2009-04-20 10:41:56 xudong 1)“为什么最大化熵?”是可以解释的,玻尔兹曼的解释熵最大的状态出现的可能性最大。如果我们能够但从概率的角度出发,证明在线段上点均匀分布的情况下,最大化熵对应的分布就是出现概率最大的分布,这样就能够证明使用最大化熵的条件是合适的。 2)约束1只是说线段总长度守恒,并没有说明点在直线上的分布情况。 积分其实是忽略信息的过程,仅仅一个积分不可能描述点在直线上如何分布这么复杂的情况。 2009-04-20 13:30:44 jake 呵呵,看来你终于意识到这个问题的趣味性了! 1、首先,我认为你对于局部均衡,即把险段均匀分成几个段,然后再在每个段内在随机分布线段的解释方法,很有意思。我觉得这是非常非常需要深入挖掘的。 2、我不知道你试没试过更多的分布情况,比如在险段上撒正态分布的点,撒幂律分布的点,……,(把这个叫做点分布),这些点切割出来的线段的长度又是如何对应什么样的分布(把这个叫做长度分布)? 3、我猜想,按照局部均衡的想法,很有可能最终线段的长度分布是跟具体的点在线段上的分布的规则没有关系的,而在于你如何将一条险段确定的分解成几个部分,然后其中每个部分就像你所说的,又是均匀的撒点有关,这样,很有可能,比如说幂律和指数点分布都对应了同一种确定的切分线段的方式,而在每一个切分线段里面又是随机的点分布,那么最终的长度分布也就是相似的了。这大概也就解释了为什么你试验的均匀点分布,和均匀点分布的平方得出来的长度分布很相似了。 4、最大化熵的思路没有把问题说清楚,是一个很好的现象,这也就给我们留下了很大的机会。我自信在这个问题上应该能比西方科学家走的更远,原因就是在于,我采纳Jaynes的主观概率解释思路,并且希望能比它走的更远。这就是我最大的梦想:观察者理论。 5、具体到这个例子中,如何能采用观察者思路给出最好的解释? 首先,一切所谓的随机是不存在的,观察者不能区分的规则和微观信息,都可以看作是随机的。这就避免了所谓的“真随机数”和“伪随机数”的争论。 其次,之所以最大化信息熵框架能够导出来指数分布,应该从观察者角度来思考,而不从你产生这样一种特定的点分布,再找到对应的长度分布的过程来思考。因为,这里面,你是程序的制造者,你自然知道你在微观制定的规则了。而对于观察者,他没有微观的规则,而只有宏观的观察信息。 这就导致了在宏观来看,总量守恒或者叫做平均值为定值是一种宏观的已知信息,需要变成一种约束加到最大化熵里面去。 而对于另外一种非均匀的点分布,观察者仍然不知道微观的规则,但它的确能看出来比如正态分布和均匀分布在线段上的密度是不均匀的,这样他应该能加入其它的约束进去。 具体新的约束怎么加,我们可以采用你说的局部均衡的方法,比如让观察者划分出几个大的区间,再针对这些去间的状态,写出不同的约束条件,加到最大化熵里面去,等等等。我估计应能开发出很多方法。 总之,最大化熵的方法也许是观察者介入正规科学的一个窗口。 2009-04-20 13:39:31 jake 我那天在永和推荐的关于MaxEnt推导出几乎全部的概率分布的内容可以在此找到, http://zxw.idm.cn/ZCL/part3/C17a.htm 另外,我知道有一个国际会议叫做Maximum Entropy and Bayesian Inference,我能借到所有的论文集,不知道你有没有兴趣,我们可以花一些时间专门在读书会上讨论这些内容。 2009-04-20 15:41:03 xqc 既然是对(0,1)线段进行撒点分割,那么所有子线段的长的和 (即线段总长度)难道不是 1 吗,为什么是 \niu 呢。 -------------------------- 2009-04-20 10:41:56 xudong 2009-04-20 16:06:13 xudong 好的问题! 还有更多的问题! 例如: 1)为什么(0,1)线段积分的区间却是(0,inf)? 2)如果在(0,1)线段上,随着点的数量的增加,线段的平均长度趋于零。但为什么约束1,也就是线段长度的期望或者说平均值不是0? 下次热力学小组活动来吗?我们一起推导一下,这些问题就清楚了 2009-04-20 15:41:03 xqc 既然是对(0,1)线段进行撒点分割,那么所有子线段的长的和 (即线段总长度)难道不是 1 吗,为什么是 \niu 呢。 2009-04-20 16:18:36 xudong 2.做过,正态分布,指数分布,幂律分布,均匀分布都做过。 结论是:只有点均匀分布时,线段长度的分布才是指数分布。对于点的其他分布方式,线段长度的分布都不是指数分布,但和指数分布十分接近。 3.我理解的不是很清楚,不过线段长度的分布绝对和点在线段上的分布方式有关! 这周末有空吗?我们可以交流一下想法。 2009-04-20 13:30:44 jake 2009-04-20 16:21:39 xudong 还有这个,看了可能会有点小失望 http://www.douban.com/group/topic/6101650/ 2009-04-20 16:56:14 xqc 其实我想表达的是,你提到的 "约束1" 不是所有子线段的长度和,而是所有子线段的平均值。当点的数量增加的时候,这个平均值 \niu 是趋向于零的,这可以反映到最后的分布曲线上面,也就是我们在 (log-linear)坐标下,随着点密度的增加,将看到曲线的衰减指数越来越大。(你的理论解析预测了这一点,我做过数值试验,也符合这个情况。) 关于积分的上下限,既然任意两点间的长度值要大于零,所以积分限当然是从0 到无穷了。只是对于那些长度“大”(例如大于 0.5 等等)的线段出现的概率 (密度)为零罢了。 -------------------------- -------------------------- 2009-04-20 16:06:13 xudong 2009-04-20 18:11:43 xudong 对的! 不过好纠结啊!先按照你的理解来说 给约束1两边都乘以线段上点的总数n 右边=1 也就是线段的总长度 左边= Sum 长度x * 长度为x的线段的个数) 这里的求和指的是对所有x求和 就是长度守恒的意思啊。 =================== 最后其实那段推导中x的含义不是分割产生的线段长度 而是 n*分割产生的线段长度 之所以这样处理是因为指数分布的定义域不是(0,1)而是(0,inf) =================== 网上不好表达,下次“读书会”一定要来哦,要不然说不清楚,心中好纠结 2009-04-20 16:56:14 xqc 2009-04-20 19:29:17 xqc 嗯,如果按照这样的操作: “给约束1两边都乘以线段上点的总数n 右边=1 也就是线段的总长度 左边= Sum 长度x * 长度为x的线段的个数) 这里的求和指的是对所有x求和 就是长度守恒的意思啊。” 那么对于不是均匀撒点的情况,例如 “……2.做过,正态分布,指数分布,幂律分布,……”。在上述操作下,最后的总线段长度仍然是1 (守恒)。按道理,我们也应该得到线段长的指数分布才对,因为此时依然满足总线段长守恒, 但是实际上你也证明了,除了点均匀分布外,其他的分布方式均不会导致小线段长的指数分布。 那么问题出在了哪儿呢?出在了“约束1”上面! 当我们使用这个约束条件的时候,相当于我们已经“承认”了此种分布存在一个不变的宏观观测量:小线段平均长度为一定值 \niu(在使用的时候或许我们没有意识到这一点)。这里需要说明的是,这个宏观不变量,不仅仅对于整个系统是不变的,而且对于这个系统的任意子系统都是不变的: “……我们取任意长度的子线段,例如 1/15, 1/2, 5/7, 17/19 等等, 在此线段内所有小线段的平均值都为定值。” 对于其他的情况(点非均匀分布),我们没法直接使用约束1,因为我们首先得证明以这种方式撒点的时候,对于这个系统而言,存在着一个宏观不变量。 例如,如果点是按幂律分布撒的,这样就会在某些线段区域内,小线段的平均值会大些,另外一些会小些。此时,系统不满足空间上的自平均性,也就是不存在约束条件1 (或者相对于约束1有某种偏差),这样最后的小线段长分布自然会偏离指数分布。 所以我才说 “……在最大化熵的求解过程中使用的约束1 (线段的平均值为 \niu) 就是用到了均匀分布的条件。(在完全随机撒点,即均匀分布的情况,才有此约束)” 我赞同这一点:“……3.我理解的不是很清楚,不过线段长度的分布绝对和点在线段上的分布方式有关!”。 目前看来只有当随机撒点,即点均匀分布的时候,我们才能得到小线段长的指数分布。 2009-04-20 23:31:36 xudong 1)约束条件1,对于任何分布都成立,对于任何分布都表示长度守恒。 下面这段话和分布没有关系,也就是说不管分布是什么样子,约束1都表示线段长度守恒。 “给约束1两边都乘以线段上点的总数n 右边=1 也就是线段的总长度 左边= Sum 长度x * 长度为x的线段的个数) 这里的求和指的是对所有x求和 就是长度守恒的意思啊。” 2)对于其他分布,之所以最大化熵产生的结果不对,是因为使用最大熵都是没有道理的! 在均匀分布的时候我们凑巧撞到了正确的结果 在其他分布的时候真实的结果和最大熵产生的结果不同 =============== 对于任何分布f,我们都可以定义一个泛函,然后把这个泛函叫做熵,然后对这个泛函取极值,泛函取极值的解恰好就是f。(这是一个兜圈子的把戏) http://www.douban.com/group/topic/6101650/ 2009-04-21 00:11:10 Davies 这么有趣的讨论。。 我很好奇为什么不是正态分布? 第一张图的两个坐标分别是什么? 2009-04-21 09:44:43 jake 如果这么解释熵,那么玻尔兹曼、吉布斯、Jaynes等一干人就白忙活几百年了。 显然是先有了熵这个泛函,而不是给定函数f,来定义泛函。所以泛函是不变的统一的形式。 我所强调的是,约束是一个很重要的条件,指数、幂律分布撒点,之所以不能严格得到指数的长度分布,完全是因为我们忽略了一些约束。而这些约束并不像长度守恒这样显而易见,而是蕴藏在了观察者所能获得的一些明显的宏观信息中了。 最大化熵的思路的解释本身需要从宏观的视角给出。 这周末不在北京,要在网下讨论需要再过一周。 =============== 对于任何分布f,我们都可以定义一个泛函,然后把这个泛函叫做熵,然后对这个泛函取极值,泛函取极值的解恰好就是f。(这是一个兜圈子的把戏) http://www.douban.com/group/topic/6101650/ 2009-04-21 10:20:55 xudong 就是积累分布F(t)=P{x