化学信息学的探索与思考
徐光宪
(北京大学化学学院)
一、引言
自从申农在1948年发表著名论文《通讯的数学理论》[1]以来,信息概念已在人类知识的各个领域广泛应用,并提出几十个不同的定义。这些定义是如此之不同,以至提出“是否存在统一的信息理论?”的疑问,并因此在1999年召开了关于(The Quest for a Unified Theory of Information)的国际会议[2],但没有得出一致的结论。本文从化学角度探索化学信息学和信息化学这两个交叉学科。化学信息学用物理和化学的观点、理论、方法探讨信息科学问题,如能成立,将是信息科学的一个分支。信息科学可分为四大分支[3]:信息科学通论、自然信息科学、工程和技术信息科学、人文和社会信息科学。在自然信息科学下面,又可分为物理信息学、化学信息学、生物信息学、地理信息科学等[4]。信息化学用信息科学的理论和方法研究化学,使化学发展获得新视角、新概念、新理论、新方法,将是化学的一个分支。1971年S.Wold最早提出Chemometrics(化学计量学,也可翻译为信息分析化学),至今已有34年历史,应该是信息化学的一个分支。
最近出版了Gasteiger等著,梁逸曾等译的《化学信息学教程》[5],其内容相当于本文的《信息化学》。为了尊重大家的习惯用法,我放弃《信息化学》的名称,把化学与信息科学的交叉学科合称为化学信息学,而把我建议的化学信息学的内容称为“基础化学信息学”,作为化学信息学的一个分支,以免与习惯用法发生矛盾。基础化学信息学是一个还很少研究的新领域。作者考虑基础化学信息学应探讨的问题有:
(1)信息是什么?从物理和化学的视角,如何理解信息?如何定义信息?信息如何分类?这些观点如何与正统的信息科学兼容?信息的多种概念和定义,只有互相兼容,才能导致统一的信息理论。
(2)信息的“量”和“质” 的问题。
(3)信息和能量可以互相交换吗?
(4)原子、分子有没有信息?如有,可否把现在已知的8000万种分子(先选择其中有代表性的一部分),在宇宙标准状态(即恒星标准状态=107K的等离子态),和地球标准状态(即298K和1大气压)的信息量计算出来,并研究分子信息量和分子反应性能的关系,从中总结规律。“可见宇宙”由75%H,23%He和2%其它化学元素组成,如果把这些化学元素在恒星标准态的信息量计算出来,是否可以估算可见宇宙的总信息量?这个问题将在另一篇文章中讨论。
二、信息是什么?
2.1 宇宙究竟有多少要素?
信息不是物质,因为信息没有质量。信息不是能量,因为信息不守恒。信息不是精神,因为信息先于精神。所以信息是宇宙四要素之一。宇宙究竟有多少要素?这是一个哲学命题。至少有四种回答:
(1)一要素论:唯物论、唯心论、唯能论、唯信息论。美国著名资深物理学家惠勒[6-7]说:“在我研究物理学的一生中,它可以分为三个阶段:第一阶段我笃信万物由粒子构成;而我把第二阶段的信仰叫做万物由场构成。现在我深信万物由信息构成(Everything is information)。
(2)二要素论:物质与精神。其中认为物质是第一性的,精神是第二性的,是辩证唯物论。罗先汉[8]提出物信论,认为宇宙的要素是(广义)物质和信息。
(3)三要素论:物质 能量 信息
(4)四要素论:场/能量 物质 信息 精神/意识
2.2 狭义信息论
信息是通讯系统中由信源发出,通过编码、信道、解码,由信宿接受的东西。信息是不守恒的,信息可以增益,也可以消灭。这个正统的信息概念 被称为狭义信息论[9]、[10]。
2.3 生物信息学
自从基因遗传密码被发现以后,生物细胞之间有信息传递的概念,是被正统信息科学家接受的,并且认为信息的起点就是生命的起点。
2.4 信息超分子化学
J.-M. Lehn [11]把信息的起点推前了一步,定位在由给体和受体分子 形成超分子。她建立了信息超分子化学,把给体和受体称为互补子(Pleromers),把信息的起点定在超分子形成,认为信息是超分子领域的主线。Pleromer来自希腊文,原义为“互补”。
2.5 Tom Stonier[12-14]创建了物理信息学
他认为原子分子是有信息的,并根据薛定谔对波尔兹曼关于熵的方程的表达[15],推导出信息和熵的定量关系式[12,p.38]:
S = k log e(I0/I) (1)
上式中k为波尔兹曼常数,S为1 mol某一纯物质的熵,I为相应的信息,I0为1mol该纯物质在完美晶体状态时的信息,是信息的最大值。I的数值非常大,我们用I的对数H来表示,称H为信息量,即
H=log2 I (单位:比特)=3.32 log I
把波尔兹曼常数和阿佛加得罗常数代入,可以推导出熵的减少值 -61508;S 与信息量的增加值 61508;H 之间的关系:
-61508;S=-1 J/K/mol=61508;H =1.045×1023比特/mol = 0.1735比特/粒子 (2)
但Stonier没有论证原子或分子之间有无通讯,有无“信源、信宿、信道”的信息三要素,因而未能和正统信息概念相兼容。
2.6 钟义信的信息定义
钟义信早在1988年发表专著《信息科学原理》,又在1996年修改发表新版[9]。他提出信息定义的层次体系:最高的层次是本体论定义,其次是认识论定义,以下是带有各种限制性的定义。某事物的信息的本体论层次定义,就是该事物运动的状态和状态改变的方式。
三、本文对化学信息学的探索、几点思考和建议
3.1 通讯必须有四个要素
作者认为通讯有四个要素:信源/信道/信宿/信的。“信的”是通讯的目的。任何通讯都是有目的的,例如人类通讯为了交流等目的,昆虫发送性信息素与异性昆虫通讯的目的是为了交配生育子代等。所以“信的”应为通讯的要素之一。编码、解码、噪音等可以合并在信道要素之内。
3.2 任何物质的微观粒子、宏观物体、宇观天体都有某种性质相异而互补的“互补配偶子(体)”,和性质相同的“竞争子”。这是物质的普遍属性,与对称性有密切关系。
3.3 “互补配偶子”之间有通讯,它们互为信源和信宿。“互补配偶子”之间都有某种相互作用,这就是它们互相联系的信道。它们通讯的目的就是互相吸引,组成高一级的粒子或高一级的动态平衡体系,这就是“信的”。
下面举例说明物质粒子发送信息,去选择/寻找“互补配偶子”,然后互相结合成为较高一级的粒子。
例〔1〕质子和中子是一对互补配位子。它们可以互为信源和信宿,发出和接受的信息就是强相互作用,通过强相互作用互相吸引,组成高一级的结构原子核,如氘核,He++,C6+,O8+等。质子和中子也有结构,它们是由夸克组成的。各种不同的夸克也是互补配偶子,它们通过强相互作用组成质子和中子。
例〔2〕带正电荷的原子核和带负电荷的电子也是一对互补配位子,它们互为信源和信宿,发出的电磁相互作用(库仑吸引力)就是信道,通过后者组成高一级的结构“原子”。
例〔3〕原子在运动中 发出一种叫做“交换力(exchange force)”的信息。这种交换力属于电磁相互作用的范畴,是由量子力学Hanmilton算符中的交换积分来表达的。这种交换力在相同的原子之间也存在,并随信源和信宿间的距离缩短而加强,所以当二个或几个原子充分接近时,它们之间可以形成共价键而组成高一级的结构“分子”。
例〔4〕金属原子之间也是互补配偶子,通过金属键形成金属或合金晶体。
例〔5〕碱金属阳离子,如Na+ K+等,和卤素阴离子,如F- Cl-等也是互补配偶子,通过离子键形成离子型晶体。
例〔6〕不同结构的分子也能形成互补配位子,例如:(1)酸与碱的中和(2)氧化剂与还原剂的反应(3)软阴离子如S2-与软阳离子如Cu++作用发生CuS沉淀(4)中心离子与配位体作用,通过配位键形成配位化合物。
例〔7〕具有某种结构的单体分子,如乙烯,氨基酸,核苷酸等能分别聚合,生成聚乙烯,蛋白质,核酸。
例〔8〕主体分子和客体分子,抗体和抗原,酶和底物等都是互补配偶子.它们的空间结构形状,能像锁和钥匙一样互补,通过“非共价键的弱相互作用”,互相接近组成超分子。超分子以上的层次就和生命运动接轨了。
例〔9〕在宇观的层面上,太阳和它的9大行星也是互补配偶体,太阳是信源,行星是信宿。作为信道的相互作用有两种,即万有引力和离心力,两者达到平衡,组成高一级的动态结构:太阳系。
例〔10〕恒星以上的层次是星系,最典型的星系是银河系。银河系的银心与它的1000亿个恒星也是互补配偶体,信道也是万有引力和离心力,组成动态平衡的银河系。星系与星系之间也能化学吸引组成星系团。
例〔11〕星系团与星系团之间不再互相吸引,而是互相远离。这是因为存在暗物质和暗能量形成的“鬼星系团”。星系团和鬼星系团成为互补配偶体,由于暗能量产生的负压力大于万有引力,导致我们的宇宙正在加速膨胀之中[16]、[17]。
如果本文的论述能被信息科学家所接受,那么,化学信息学就有可能成为物理信息学和生物信息学的桥梁。
3.4 信息的多种不同概念和定义的统一
我们从通讯理论出发,信息的通讯必须有 “信源、信道、信宿、信的”四个要素。信源和信宿是互补配偶子(体),互补配偶子之间一定有一种或几种相互作用,作为它们之间通讯的信道,来达到组成高一级结构的目的(信的)。所以信息=组织=结构=事物的运动状态及其改变方式。
物质粒子都有结构,有光、电、磁、化学、生理等性能。凭借这些性能,可向外界发送信息,例如,我们能知道天体中含有哪些化学元素,就是从这些元素发出的光谱去认识的. 信息是把事物从简单到复杂、从无序到有序进化发展的动力。
在宇观天体中,太阳和它的行星也是互补配偶体,通过万有引力和离心力组成太阳系。
在人类社会中,语言是最好的通讯手段之一,所以信息=语言=语法+语义+语用。通讯需要编码,编码就要在多种符号中选择一个。例如,二进位制就是在0与1之间选择一个,所以,信息=选择=择偶=找配偶子。低级的粒子找到配偶子后就能组织成高一级的粒子,信息是选择的确定=多种混乱状态的消除=从无序到有序=无序的反面=负熵。
这样,从不同视角提出的信息概念就能互相兼容,可把信息定义如下:
3.5 信息的定义:
某一物质能量系统或某事物的信息,是它的运动状态、结构、性能、取值、和相互作用的规律,以及运动状态的改变,是使该事物能够由简单结构自组织成为较高级结构,并推动它进化、发展的源泉和动力。
3.6 信息的分类:
确定了自然界的物质粒子具有信息,那么信息就可分为三类:
〔1〕自然信息:1)动力信息和热力学信息。2)静态和动态结构信息。3)物理和化学性质、生理活性。4)规律信息和自然常数。
〔2〕生物信息。
〔3〕人工信息:一般人工信息和系统人工信息;语言:语法、语义、语用;知识体系是系统人工信息。
3.7 信息的“量”和“质” 的问题。
物质、能量、信息都有“量”和“质”。物质的“量”是质量,单位是克或千克。物质的“质”可用它含有的信息量来度量。例如,1千克的大脑含有的信息量,远远大于1千克石头的信息量,前者的“质”远高于后者。能量的“量”是热量,单位是J。能量的“质”也可用它含有的信息量来度量。例如,电能的信息量大于热能,电能可以无条件转化为热能,但热能转化为电能要受热力学第二定律的限制,所以电能的“质”大于热能。
信息的最简单的量度是比特。信息的“质”可以有许多层次。例如在语言信息学中,就分为语法、语义、语用三个层次。钟义信[8]研究了如何量度这三个层次的信息问题。在语法、语义、语用三个层次以上,可能还有更高的信息的品质,建议称之为“信值”,即包含语言文学、哲学宗教、科学技术、文化艺术等知识体系在内的信息的价值。例如,爱因斯坦在1905年发表的四篇短短的论文,或李白的一首诗,其“信值”是非常高的。
3.8 信息和能量能否互相交换?
物理信息学的奠基人Tom Stonier[12]、[14]对信息理论做出巨大贡献。但我不同意他关于“信息和能量可以互相交换转化的观点”[12],理由如下:
1)信息和能量是不同的范畴,能量守恒,信息不守恒。如果两者可以互相交换转化,那么能量也就不守恒了。这就违反能量守恒定律。
2)根据质能联系定律,有能量就有相应的质量,物质和能量是可以相互转换的,而信息是没有质量的,所以不能转化为能量。
3)信息与能量的量纲不同。在自然单位制,能量的量纲是能量,单位是Mev,而信息没有量纲。Stonier书[12]中108页列出二个公式,作为信息和能量可以转换的重要关系式:
-1 J/K = 1023 比特, -1 eV/K=1.6x104比特
但J/K或eV/K是熵的单位,不是能量的单位。上面两个公式表示熵和信息量的换算关系,不是能量和信息量的换算关系。
4)Stonier[12. p125 ]认为:“光包含信息。物质对光的吸收,导致原子态的信息的增加,这就表明“光能可以转变成信息”。我们把这个例子具体化:
H原子(1s基态)+hν →H原子(2s激发态)
在这一过程中H原子(2s激发态)的信息量是减少了,而不是增加了。因为激发态不如基态有序。
光是含有信息的,如它的波长、频率、偏振性等。在这一过程中,H原子(1s基态)吸收了光子,变成激发态。光子消灭了,它的信息也没有了。但H原子并不增加信息,反而减少了信息,这说明信息不守恒,而能量是守恒的。
为了说明激发态的信息量比基态少,可以举一个激发到电离的例子:
H原子(1s基态)+hν →H+离子+e-
上述过程的反过程,即H原子由离子和电子组织起来的过程,按照信息的定义,是信息量增加的过程,因而电离是信息量减少的过程。
3.9 物理学和化学中早已建立了熵的概念,有无必要再引进信息概念?
熵的减少值(-61508;S)与信息量的增加值(61508;H)之间有定量关系如第(2)式,这一关系式只适用于同一纯化合物的不同状态之间的变化关系,不适用于不同化合物之间的化学变化的61508;S*与 61508;H*之间的关系。例如下列化学反应的61508;S*与 61508;H*之间就不能适用(2)式。
2H2 [0K]+O2[0K]→2H2O[0K]
61508;S*=S*[2H2O,0K]-S*[2H2,0K]-S*[O2,0K]=0
61508;H*=H*[2H2O,0K]-H*[2H2,0K]-H*[O2,0K]> 0
熵的标准态是0K的完美晶体态,此时所有纯化合物的S*=0,所以61508;S*=0。但此时化合物2H2O是比单质2H2+O2高一级的结构,所以61508;H* > 0。反之,信息量的标准态是早期宇宙态[p++e-+n,1012K],此时61508;H*=0。
所以化学反应的61508;S*与61508;H*之间没有定量关系式。熵的绝对值S和信息量的绝对值H之间也没有定量关系。因此除熵以外,在物理和化学中引进信息概念还是必要的,对物理学和化学的发展是有利的。
3.10 信息的不守恒性,信息量的增减,进化与退化
(1)信息是不守恒的,这是大家的共识。但在书刊文献中(我未查到最先提出的作者)有这样的说法:“熵与信息不守恒,但熵与信息之和是守恒的”。这个结论可能是从(2)式得来的。
-61508;S=-1 J/K/mol=61508;H =1.045 x1023比特/mol = 0.1735比特/粒子 (3)
由(2)得,
61508;H+61508;S = 0
所以熵与信息之和守恒。但Stonier推导的(2)式只适用于同一纯化合物在不同状态时熵的变化值61508;S与信息量的变化值61508;H之间的关系。在2.9节中已论证了它不能适用于化学变化,更不能作为普遍规律。
(2)在封闭体系中,熵是永远增加的,这是热力学第二定律。但宇宙不是封闭体系,所以不适用。
(3)在开放体系中,信息量可以增加,可以减少。信息量增加的过程称为进化过程,信息量减少的过程称为退化过程。这是进化过程和退化过程的定义。
(4)人是一个与外界环境有物质、能量和信息交流的开放体系。人有生老病死,生长、发育时,信息量不断增加,是进化的过程;衰老、病死,直到尸骨腐烂化为泥土时,信息量不断减少,是退化的过程。但人类整体,或推广到地球上的生物界整体是在进化的。这个进化的原动力来自太阳光提供的能量和信息。一旦太阳走向衰老和死亡,即进入退化过程,地球和地球上的生物也会退化,直到灭亡。
(5)宇宙的局部,例如太阳系,也有生老病死,从进化到退化的过程。恒星的质量在0.1-100个太阳质量的范围。恒星的寿命长短与它的质量的平方成反比。太阳是第二代恒星,年龄约50亿岁,寿命约100亿岁。
(6)宇宙整体是进化还是退化,决定于宇宙在膨胀还是收缩。现在从太空望远镜观察到宇宙在加速膨胀之中。所以宇宙在不断进化,信息量在不断增加。宇宙膨胀的原动力来自暗能量的负压[16]、[17]。
【点评一】我认为论文中最值得重视的是,提出了信息量与信息熵的区别,提出了信息量的计算方法,特别是信息量的增减表示进化与退化,具有普适性。(马蔼乃)
【点评二】作者在莱恩互补子概念的基础上进一步提出互补配位子和竞争子概念,很有价值,有助于深化用信息观点解释化学现象和化学过程,推动化学信息学的建立。但有两点质疑:(1)提出“物质的‘质’可用它含有的信息量来度量”的根据何在?“1千克大脑含有的信息量”指的是其基本粒子层次的信息,抑或神经信息,抑或语言文字表达的信息?(2)是否应当区分信息化学和化学信息学?(苗东升)
参考文献
1. Shannon,C.E.,A Mathematical Theory of Communication,Bell System Technical J.,27,379-423; 623-656,1948
2. The Quest for a Unified Theory of Information,Proc. of the 2nd International Conf. on the Foundations of Information Science, 1999, Vienna, Australia, Edited by W. Hofkirchner, Gordon and Breach Publishers, Australia
3. 参照闫学杉教授的建议,见北京大学交叉信息科学研讨会纪要第14期,2004年9月14日,略有更动
4. 马蔼乃,地理信息科学,北京大学交叉信息科学研讨会纪要第8期,2000年5月13日
5.Gasteiger,J. and Engel,T.,化学信息学教程,梁逸曾等译,北京:化工出版社,2005
6.Wheeler,John,《Physics,Quantum: The Search for Links,in Complexity,Entropy,and the Physics of Information》,Edited by Wojciech H. Zurek,1990
7. Wheeler, John,《Geons, Black Holes and Quantum Foams-A Life in Physics》,1998。《约翰8226;惠勒自传 物理历史与未来的见证者》,约翰8226;惠勒,、肯尼斯8226;福勒著,蔡承志译,2004
8. 罗先汉,物信论-多层次物质信息稀土及其哲学探讨,北京大学学报(自然科学版),2005(3),440-447
9. 钟义信,《信息科学原理》,1988,福建人民出版社;1996新版,北京邮电大学出版社
10.闵家胤,北京大学交叉信息科学研讨会纪要第13期,2001年1月7日. 原英文稿曾在1996年6月在维也纳技术大学召开的“统一的信息科学基础”第二次学术大会上宣读
11.Lehn,J.-M.,超分子化学,沈兴海等译,北京:北京大学出版社,2002
12.Stonier,Tom,《Information and the Internal Structure of the Universe》,London,Springer Verlag,1990
13. Stonier,Tom,《Beyond Information: The Natural History of Intelligence》,1992
14.Stonier,Tom,《Information and Meaning,An Evolutional Perspective》,1997
15.Schrodinger, E.,《What is Life?》,1944,Cambridge University Press
16.Lee,T.D(李政道),Nuclear Physics A,2005,750(1-8)
17. Lee,T.D(李政道),A possible origin of dark energy,Physics Letters 2005
▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁
作者通讯地址:100871,北京大学化学学院,gxu@pku.edu.cn
徐光宪 信息是"关系",场, 是能量的"质"
所有跟帖:
•
非线性的概念、性质及其哲学意义; "整体大于部分之和"生命力
-marketreflections-
♂
(22953 bytes)
()
08/20/2009 postreply
19:45:11
•
系统的组织性, 非线性的程度: "整体大于部分之和"生命力程度
-marketreflections-
♂
(102 bytes)
()
08/20/2009 postreply
19:51:29
•
整体小于部分之和: mkt in down trend
-marketreflections-
♂
(54 bytes)
()
08/20/2009 postreply
19:56:47