最大熵原理:简单形式

回答: 最大信息熵原理marketreflections2008-06-07 06:43:19

http://www.core.org.cn/NR/rdonlyres/Electrical-Engineering-and-Computer-Science/6-050JInformation-and-EntropySpring2003/ECB9F73C-48E8-4528-B69E-F5CBAF886C5C/0/chapter9.pdf


第9章
最大熵原理:简单形式
上一章中,我讨论了已知输出事件估计程序输入概率的方法。这种方法依赖于贝叶斯公式,只在程序无损失(输入可以被准确认定)或者假定了输入概率分布(这种方法可以考虑已知输出来推敲初始概率分布)的情况下才适用。
最大熵原理是一个更一般的方法,它可以用于估计输入概率。结果是一个与已知约束一致的概率分布,约束用一个以上的量的平均值,或期望值描述,但是又尽可能的没有偏差。我们先用1个约束3个输入事件的简单情况讨论这个原理,我们可以用这个情况分析此方法。然后在第10章中有更一般地讨论。
这个原理用于很多领域,但最初始自统计物理学,它试图把物理系统的肉眼可见的可以测量的性质与原子或分子级的讨论联系起来。它可用于从信息论的角度研究物理系统,因为避免假设观察者有比实际情况可能的更多信息,这样可以推出概率分布。信息论特别是根据概率分布定义的信息概念,提供了一个对未知(或不确定性或熵)的量化度量,可以用数学方法将其最大化,求出最大无偏的概率分布。
统计物理学的这个方法首先有Edwin T. Jaynes(1922-1998)提出,他是华盛顿大学圣路易斯分校和前斯坦福大学的教授。发表的文章是
􀁺 E. T. Jaynes, “Information Theory and Statistical Mechanics,” Physical Review, vol. 106, no. 4, pp.620-630; May 15, 1957.
(http://bayes.wustl.edu/dtj/articles/theory.1.pdf)
其他对Jaynes的资料有:
􀁺 这篇论文的续,E. T. Jaynes, “Information Theory and Statistical Mechanics. II,” Physical Review, vol. 108, no. 2, pp. 171-190; October 15, 1957.
(http://bayes.wustl.edu/dtj/articles/theory.1.pdf)
􀁺 一篇评论文章,包含估计不公平死亡概率的一个例子, E. T. Jaynes, “Information Theory and Statistical Mechanics,” pp. 181-218 in “Statistical Physics,” Brandeis Summer Institute 1962, W. A. Benjamin, Inc., New York, NY; 1963.
(http://bayes.wustl.edu/etj/articles/brandeis.pdf)
􀁺 这个方法的历史, Edwin T. Jaynes, “Where Do We Stand on Maximum Entropy?,” pp. 15-118, in “The Maximum Entropy Formalism,” Raphael D. Levine and Myron Tribus, editors, The MIT Press, Cambridge, MA; 1979.
(http://bayes.wustl.edu/dtj/articles/stand.on.entropy.pdf)
下面的文章把假定最大不确定性的思想作为一个热力学的方法讨论。
􀁺 Chapter 3 of M. Tribus, “Thermostatics and Thermodynamics,” D. Van Nostrand Co, Inc., Princeton, NJ; 1961.
9.1 问题设置
在应用最大熵原理之前需要设定问题的范围。在涉及物理系统的情形中,这意味着需要
确定该系统可以存在的多种状态,需要了解约束下的所有参数。比如能量、电荷和其他与每个状态相关的物理量都假设为已知。为了完成这个任务常常需要量子力学。我们不假设在这个步骤系统处于特定状态;事实上我们假定我们不知道也不可能知道这一点,所以我们反而可以处理被占据的每个状态的概率。这样把概率当作应对知识缺乏的一种方法。我们很自然地想避免假定了比我们实际有的更多的知识,最大熵原理就是完成这个的方法。对非物理系统的应用中,需要在此列举许多可能的事件,需要了解每种可能事件的每种性质。本讲义中推导了最大熵原理的一个简单形式,并把它用于最后一章设置的饭店的例子。
9.1.1 Berger’s Burgers
这个例子在第8章讨论过。一家快餐店提供3中食品:汉堡、鸡肉和鱼。表9.1列出了价格、卡路里值、和递送食品变凉的概率。
表9.1:Berger’s Burgers
9.2 概率
尽管现在已经设定了问题,我们还不知道系统实际上处于哪个状态。尽管不知道这个,为了表示我们知道的事情,我们假定每种可能的状态都有概率,其中i是对可能状态的一个索引。在饭店模型的情况下,对3种食品我们有3个概率,为了简化将其表示为和。 iA)(iAp)(),(CpBp)(Fp
概率分布有这种性质:每个概率处于0到1之间(含端点),因为输入事件是互斥且完备的,所以全部概率的和是1: )(iAp
Σ=iiAp)(1 (9.1)
如果有一个概率等于1,那么其他所有概率都是0。那么我们就知道了系统处于什么状态;换句话说,我们没有不确定性,也就无需求助于概率。
因为概率用于处理知识的缺乏,因为一个人可能比另一个有更多的知识,由此得出结论因为两个人有不同的知识,所以两个观察者可能用不同的概率分布。这就是说概率和所有基于概率的物理量都是主观的。
9.3 熵
我们的不确定性用量化的关于被占据状态的未知信息来表示。这个信息是:
Σ⎟⎟⎠⎞⎜⎜⎝⎛=iiiApApS)(1log)(2 (9.2)
因为我们用以2为底的对数,所以信息用位衡量。
在物理系统的背景下,这个不确定性被称为熵。通信系统中,关于传输的实际信息的不
确定性也被称为数据源的熵。要注意因为熵用概率表示,所以它依赖于观察者。一个人对系统可能会有和他人不同的认识,所以就会计算出熵的不同的值。最大熵原理用于找到产生该不确定性的最大值的概率分布,因此假设没有虚设的信息。
如果有个概率值为1,那么其他所有概率均为0,熵也就是0位。
9.4 约束
上面关于熵的公式有一个性质:当所有概率相等时,熵取得最大值(我们假设可能状态的数量是有限的)。如果没有关于系统的附加信息,那么这个结果看上去是合理的。然而,如果有附加信息,那么我们应该找到一个概率分布,它使不确定性更小。
为了简化我们只考虑一个约束,即我们知道某个量的期望值(最大熵原理可以处理多个约束,但数学过程和公式就会更复杂)。要求的量是系统每个状态都有的量,期望值可以这样求出:考虑那些状态的概率,对每个状态响应的值求平均值。所以如果对于量G每个状态都有一个值,那么我们只需考虑期望值是G的那些概率分布 )(iAg
Σ=iiiAgApG)()( (9.3)
注意如果G小于最小的或大于最大的,那么这个约束就不能成立。 )(iAg)(iAg
对于Berger’s Burgers的例子,假设我们被告知一顿饭的平均价格是1.75美元,我们要估计没有其他假设的情况下许多顿饭各自的概率。那么约束是
)(00.3$)(00.2$)(00.1$75.1$FpCpBp++= (9.4)
注意概率没有量纲,所以约束和单独值的期望值都必须用一样的单位表示,本例中是美元。
9.5 最大熵,解析形式
这里我们用一个非常简单的例子演示最大熵原理,这个情形中有1个约束和3个变量。可以用解析的方式完成所有的步骤。
假设你被Berger’s Burgers的父公司Carnivore公司雇佣,要分析他们在全世界的销售量。你来到全世界的Berger’s Burgers饭店,得知了人们平均每顿饭花费1.75美元。作为Carnivore对全球承诺的一部分,每家饭店的每道饭菜的价格都完全相同(在当地货币换算为美元后)。价格是汉堡1美元,鸡肉2美元,鱼3美元。
回去后,你的领导询问顾客购买3种食品的概率。你惊慌地意识到忘了搜集那条信息,而且没有时间再次商务旅行。你必须尽全力估计概率和,它们要和符合两件你已知的事件: )(),(CpBp)(Fp
)()()(1FpCpBp++= (9.5)
)(00.3$)(00.2$)(00.1$75.1$FpCpBp++= (9.6)
因为有3个未知量,只有2个等式,所以没有足够的信息解出未知量。对概率分布的不
确定性的量是熵
⎟⎟⎠⎞⎜⎜⎝⎛+⎟⎟⎠⎞⎜⎜⎝⎛+⎟⎟⎠⎞⎜⎜⎝⎛=)(1log)()(1log)()(1log)(222FpFpCpCpBpBpS (9.7)
你应该采取什么策略呢?符合已知条件的概率有一个范围。然而这给了你不确定性量S的不同的值。如果你选择一个S较小的,就假定了你不知道的事情。比如,如果你的平均值是2美元,而不是1.75美元,为了符合两个条件,你就必须假定每个人购买了鸡肉。这样不确定性就是0位。或者你可能假设一半人买汉堡一半人买鱼,不确定性是1位。这些假设看上去都不合适,因为每个假设都超越了你知道的事情。那么不采用超越你已知的信息,怎么求出概率分布呢?
最大熵原理阐明了相当明显的一点:你应当选择留给你最大剩余不确定性(即最大熵)的那个概率分布。这样你就没有在计算中引入任何附加假设或偏差。
对这个3概率2个约束的简单情形,很容易解析地处理。由两个约束,两个未知概率可以用第三个量表示。我们可以用1美元乘以上面第一个等式,再用第二个等式减去它来消去。然后用2美元乘以第一个式子,用第二个式子减去它,消去了: )(Bp)(Cp
)(275.0)(FpCp−= (9.8)
)(25.0)(FpBp+= (9.9)
接着可以确定概率可能的范围值。因为每个概率处于0到1之间,所有很容易得出这些结论
375.0)(0≤≤Fp (9.10)
75.0)(0≤≤cp (9.11)
625.0)(25.0≤≤Bp (9.12)
下一步,把这些表达式替换到熵的公式种,用单个概率表示。这样
()()()()⎟⎟⎠⎞⎜⎜⎝⎛+⎟⎟⎠⎞⎜⎜⎝⎛−−+⎟⎟⎠⎞⎜⎜⎝⎛++=)(1log)()(275.01log)(275.0)(25.01log)(25.0222FpFpFpFpFpFpS
(9.13)
现在有几种方法可以求出S最大时的值。本例中最大熵发生在的时候,所以,)(Fp216.0)(=Fp466.0)(=Bp318.0)(=Cp,517.1=S位。
求出输入概率分布以后,可以求出在分布上的任一平均值。比如本例中可以计算卡路里平均值,或者吃到凉饭数的期望值。
回顾一下我们所做的。我们根据未知的概率分布表示了约束条件。其中一个约束时概率和为1。另一个涉及到某个量的平均值,本例中是价格(或者还可以是卡路里值)。我们用这些约束消去了两个变量。然后用剩下的变量表示了熵。最后求出了熵最大时剩余变量的值。结果就是一个符合约束条件的概率分布,但它有最大不确定性。这样我们没有在概率估计中引入偏差。
这种方法需要在开始的时候已知系统模型;唯一未知的时概率分布。就像本章中进行的那样,对于未知量数目比较少,比约束个数多一个的未知数的情况,可以解析地进行推导。对于更复杂的情况就必须用拉格朗日乘子的更一般的方法了。这是第10章的主题。

请您先登陆,再发跟帖!