信 息 熵: 从不确定到确定, 知识量, 信息量 (图)

回答: 最大信息熵原理marketreflections2008-06-07 06:43:19

http://courseware.ecnudec.com/z*****/zjx/zjx12/zjx122/zjx122000.HTM 1. 信息熵的数学表达? 2 熵的数学意义? 3 信息熵的基本性质? 2.1.1 信息量的表示 2.1.2 信息熵 2.1.3 熵的意义 2.1.4 信息熵的基本性质 信息熵 信息熵,简称为熵(entropy);表示的是信源每个状态的平均不确定性。   2.1.1 信息量的表示 熵是1865年作为热力学的一个重要概念引入的。信息理论中的熵是从不同的观点引入的,两者间虽有相同的数学形式,但它们并没有什么直接的联系。 教育中人们接受信息典型事例: 例1 现有A、B、C、D、E五名学生,以他们作为候选人需从中选出一名学生作为学生代表。 ````对于这种五选一的系统,设定每一名学生被选中的可能性是一样的,被选中的概率都是1/5。这是对五选一系统的一种不完全的知识,也是一种不确定的认识。 ````选拔的结果是A被选中。当我们得到了A被选中的消息后,我们对五选一系统的知识从不完全到完全,对五选一系统的认识从不确定到确定。它表明“A当选”的消息使我们的知识量增加了,即它具有一定的信息量。 引申 若讨论的系统是n选一的系统,显然,n越大,选拔前的不确定性就越大,选拔结果公布后,它给予人们的知识量就越多,即人们从公布结果中所得到的信息量就越大。这种信息量的多少与n的大小成比例的增加。为此,我们以 (2-1) 来定义信息量。这是一种以2为底的对数,其单位为字位(bit)。若对数是以e或10为底,H的单位为nit或bit。 以上的讨论中,我们是以得到消息后,在多大程度上丰富了我们的知识,消除了认识上的不确定性来定义信息量的,而且设定,五选一系统中,每一名学生被选中的概率是相等的。若五名学生中,每一名学生当选的概率不同,显然,结果公布后,给予人们的信息量就不一样。例如,选拔前,已知A当选的概率是90%。A选中的结果公布后,所给予人们的知识量较小,因为选拔前,人们已经有了较为完全的知识。作为一个极端,已明确A一定会当选,即A选中的概率为1。选拔结果公布后,它并没有向人们提供什么新的知识,即它给予人们的信息量为零。为此,我们应以概率来定义信息量。 例2 设某一系统中包含有n个事件,每一事件产生的概率都是 ,此时的信息量为: 这是一种等概率事件的系统。对该式予以扩展,设某一事件产生的概率为p,则信息量由下式定 义: (2-2) 式(2-2)中的负号是由1/p所产生的,它使H的计算结果为正数。 返上 2.1.2 信息熵 信息熵,简称为熵(entropy) 例1 设概率系统中有n个事件,每一事件产生的概率为: 当事件I产生后,给予我们的信息量为 对于n个事件构成的概率系统,每一事件产生的平均信息量为: (2-3) H为信息熵。 例2 设某一系统具有四种状态A1、A2、A3、A4,其产生的概率分别为: 、 、 、 该系统中任一状态产生是所给予的平均信息量为: 若概率系统为连续系统,其概率分布为p(x),该系统的熵由 (2-4) 所表示。 返上 2.1.3 熵的意义 熵的大小可用于表示概率系统的不确定程度。 例1 设某一概率系统中,每一事件产生的概率分布为: (1, 0…,0) 它表示,该系统中某一事件产生的概率为1,其他事件产生的概率为0,这是一个确定系统,不确定度为0。计算该系统的信息熵,有H=0。 例2 设某一概率系统中,其概率分布是均匀的,它表示系统中每一事件产生的概率相等。对于这样的系统,我们很难预测某一事件的产生,这种系统的不确定性最大。该系统的信息熵具有最大值(在相同事件数的情况下)。 以上讨论的是两种极端的情况,我们来考察两个中间状态。 例:两个中间状态 设概率系统A、B得分布为: 试比较它们哪一个系统的不确定程度大。 分析 为了进行这种比较,我们计算它们的信息熵,并以计算出的信息熵,对它们的不确定程度进行定量的比较。通过A、B系统信息熵的计算,有 由此可以判定系统B的不确定程度是系统A的两倍。 返上 2.1.4 信息熵的基本性质 下面以具体事例解释信息熵的基本性质。 1.单峰性 下面是由两个事件构成的简单概率系统 例 设某一系统包含两个事件A、B,其产生的概率分别为p和1-p。该系统的熵为 随着p的变化,其H-P图(如图2-1)所示。该图具有单峰性的特点。 从图2-1可知,当p为0时,H=0。这是一种A产生的概率为0,B产生的概率为1的确定系统。同样,若p为1,H=0。这是一种A产生的概率为1,B产生的概率为0的确定系统。 若,则它表示A、B事件产生的概率相同,H具有极大值,这是一种不可预测的不确定系统。 对这样的系统予以扩张,设系统中具有n个事件,其中某一事件产生的概率为1,其他事件产生的概率为0,该系统的熵H=0。若系统中每一事件产生的概率相同,均为1/n,这种系统的H为最大值。 2.对称性 例 某系统中n个事件的概率分布为 当我们对事件位置的顺序进行任意的置换后,得到新的概率分布 有以下关系成立: (2-5) 它表示,系统中,事件的顺序虽不同,只要总的概率分布相同,系统的熵H是不变的,即系统的熵与事件的顺序无关。 3.渐化性 例 设概率为的事件可分解为q和r的两个事件,则有 (2-6) 4.展开性 例 设某一系统的概率分布为: 该系统的信息熵具有 (2-7) 这样的开展性质。在此基础上,进一步展开,有 5.确定性 概率系统中,任一事件产生的概率为1,则其他事件产生的概率为0,这是一种确定的系统。对于这样的系统,有 (2-8) 性质总述 从上述的讨论可以看出,熵所描述的不是一个一个的事件,而是表现有关概率系统整体概率分布状态的统计特征量。系统的熵是通过实测数据进行计算的,往往我们将它作为一种统计量来使用。
请您先登陆,再发跟帖!