Morse理论[9],“一个纯量场的二次微分能够表现出此纯量场的局部分布情況,对于电子密度纯量场而言,其二次微分可定义出局部电子

来源: marketreflections 2011-01-12 13:40:17 [] [博客] [旧帖] [给我悄悄话] 本文已被阅读: 次 (18508 bytes)
这是 http://www.cad.zju.edu.cn/chinagraph/chinese/specialtopic/graphics/Graphic_HanWei_FeatureAnalysis.pdf 的 HTML 档。
G o o g l e 在网路漫游时会自动将档案转换成 HTML 网页来储存。
Page 1
面向生物大分子的三维数据场特征分析与可视化初探∗韩玮1, 汪莉2, 陈为3+, 万华根4,彭群生5,吴韬6,王琦71,2,3,4,5(浙江大学CAD&CG国家重点实验室,310027,杭州)6,7(浙江大学化学系分子设计与分子热力学研究所,310027,杭州)Feature Analysis and Visualization of 3D Scalar Field with the Applications to theMacromolecule *HAN Wei1, WANG Li2, CHEN Wei3+, WAN Hua-Gen4, PENG Qun-Sheng5, WU Tao6, WANG Qi71,2,3,4,5(State Key Lab of CAD&CG, Zhejiang University, Hangzhou 310027, China)6,7 (Institute of Molecular Design &Thermodynamics, Zhejiang University, Hangzhou 310027, China)+ Corresponding author: Phn: +86-571-88206681-522, Fax: +86-571-88206680, E-mail: chenwei@cad.zju.edu.cn, Received 2006-2-25; Accepted 2006-2-25Abstract: This paper introduces our primary attempts on the modeling, analysis and visualization of the 3Dmacromolecular scalar field. According to the quantum chemical theory, we transform one protein molecularstructure into a regularly sampled 3D scalar field, in which each node records the combined effect of differentactions in protease. By applying the first order and the second order local differential operators on individual node,we can find a set of critical points which potentially depict the active region of protein molecule. We also computea sequence of molecular potential energy in the data field and interactively explore the potential “tunnel” regionexhibiting biological sense. In addition, we exploit the point-based, surface and volume rendering techniques tofind the macro-structure inside the data field. With all these techniques, we successfully find the escape route ofwater molecules hidden in the HIV-1 protease, which is in accordance with the experimental results.Key words: 3D scalar field, feature analysis, visualization, critical point, protein, macromolecule.摘 要: 本文介绍了我们在面向生物大分子结构和功能分析的三维数据场建模、特征分析与可视化方面的初步尝试。我们从蛋白质分子结构出发,采用量子化学理论计算得到一个规则采样的三维数据场,场的每个格点上记录蛋白酶分子内部各种力的综合作用。在每个格点上实施离散一阶、二阶局部微分计算,从而筛选出一系列数据场内的临界点,这些临界点潜在地揭示了蛋白质分子的功能区域所在。继而,我们计算数据场内各种型值的分子势能面,交互地探寻具有一定生物活性的“通道”区域。此外,我们探索运用多种点、面和体可视化技术,来寻找分子内部的宏观结构。通过上述多种特征分析与可视化手段,我们成功地寻找到 HIV-1 蛋白酶分子中隐藏的水分子排出通道。关键词: 三维数据场;特征分析;可视化;临界点;蛋白质;生物大分子中图法分类号: TP391文献标识码: A∗本文获得国家自然科学基金重点项目(No.60533050)、国家自然科学基金(No.60503056)和国家自然科学基金创新群体基金(No.60021201)的资助+通讯作者
--------------------------------------------------------------------------------
Page 2
韩玮、汪莉 等:面向生物大分子的三维数据场特征分析与可视化初探1 引言C. B. Anfinsen指出:“理解细胞行为的最佳方式是研究蛋白质分子的结构与功能的关系”[13]。而蛋白质结构除了通过生物实验进行验证外,还可以从序列相似性比较和几何拓扑的角度来进行预测[5,14,18]。这两类方法都建立在对蛋白质分子结构合理建模的基础之上。从二十世纪七十年代开始,研究者们推出了一系列蛋白质分子的几何表示方法,典型的有线框表示、棍状表示、球棍表示、CPK表示、带状表示、卡通表示、管片表示等[12]。本质上,它们是基于实验数据对蛋白质中各原子间作用关系的一种抽象,在图形学中表达为一系列线段和面模型的集合。它们的优势在于能提供用户一种简单直观和交互的方式辅助观察分子的几何和拓扑结构。但是,现有的模型缺乏对分子的运动、分子静电势场的有力刻画。其一是,分子图和线面表示缺乏对力场的表示。力场是一个分布在三维空间中连续的空间量。在分子图表示中,原子之间的距离用连通关系表示,而线面表示中,力的作用是通过球面之间相连的棍状表示。两者仅仅反映了关系的存在,而无法表达力的大小、位置和相对方位。其二,蛋白质分子时刻都处于运动之中,三维空间中的力场是一个变化的量。仅用分子图和线面表示难以表达出动态的整体状态。因而在此基础上进行几何结构分析尚存在难以突破的局限性。一个自然的想法是,可否用一种三维的空间场来表征蛋白质分子的空间功能结构?这样的一种模型应该直接建立在实验数据的基础上,且操作简单,可控性好,能描述分布在空间各点处的分子势能或其他物理化学量。我们将单个蛋白质分子表示为三维空间中一系列规则采样的离散三维格子的集合,每个格子点上记录该格子中心点处的属性数值。三维数据场的建模与分析在科学计算可视化、计算机辅助几何设计、飞行模拟与动画等领域得到了广泛的应用,其在宏观世界的建模与可视化技术日臻成熟,但至今尚很少有相关文献涉及到分子级别的几何处理。在分子设计和蛋白质分子结构预测研究领域,一般的工作集中在分子图和线面模型表示上,已有的体表示研究都不是建立在全局的三维场的表达上,它们或对整个空间计算一个场值[6],或将面模型体素转化为体模型并进行蛋白质分子三维相似性计算[1,2,8,10,11], 或对分子的电子断层扫描(CT)图像序列进行特征提取和可视化[4]。从分子学的角度看,以力场能为基础来确定配体与蛋白质之间的相互作用和热力学构象所进行的简单自由能计算在配体结构设计方面是非常有用的工具。因此,建立一套针对蛋白质分子属性的三维数据场表示与分析方法,具有重要的研究价值。在三维数据场的语境下,特征是指数据场数据中蕴涵的某类特殊的信息、用户感兴趣的区域或能区别不同数据之间的标识。以HIV-1 蛋白酶(即艾滋病病毒)为例,现已证实,其活性位点位于一条狭长的“通道”底部,具有二重对称性,当与抑制剂结合后,蛋白质的结构,特别是挡板的结构会发生很大的变化[1]。本文以HIV-1 蛋白酶分子结构为实验对象,进行了三维数据场计算、基于局部微分算子的特征分析、基于分子势能面的HIV-1 蛋白酶“通道”特征区域抽取和体可视化等一系列工作。初步实验表明,我们的方法计算出的特征区域具有重要的生物意义,与已知的生物学结论一致。本文第二部分介绍与三维数据场分析相关的背景工作;第三部分以 HIV-1 蛋白酶分子为实验对象,详细描述了我们的方法和实验结果;第四部分概括全文,并简述未来方向。2 相关工作有关蛋白质分子的表达、建模与分析的文献很多,本节我们简单描述最相关的代表性工作。2.1 蛋白质分子的数据采集和几何表达模型蛋白质分子实测方法除了利用X-射线衍射、核磁共振等实验手段以外,也借助于信息、自动化方法对分子结构予以预测,主要分为两类:一类依赖于序列数据,采用统计学方法来分析其结构和功能;另一类直接从实验测定已知的(或预测出的)三维结构出发,着重考虑结构与几何拓扑性质,进而分析其功能。这两类方法均建立在对生物大分子结构合理建模的基础之上。目前,针对蛋白质分子表示的计算机模型有很多。这些模型的建立主要是依赖于由原子方位、排列顺序、连接方式等决定的分子骨架形状、表面几何及拓扑性质。通过对蛋白质三维结构原子空间定位及连接关系、Cα
--------------------------------------------------------------------------------
Page 3
6 t链、二级结构、模体(motif)等进行合理抽象,构造一系列线/面模型,可以更直观地表示蛋白质分子的几何与结构。2.2 比较分子场分析法(Comparative Molecular Field Analysis, CoMFA)在计算机辅助药物设计中,比较分子场分析法(CoMFA)[6,8]一直是研究的热点, 经过十几年的发展,目前已成为最成熟且应用最广泛的三维定量构效方法(3D-QSAR)。其基本原理是:首先在分子周围定义分子场空间并均匀划分,在每个格点上计算分子场特征(一般为静电场和立体场,有时也包含疏水场和氢键),然后采取偏最小二乘法进行回归分析,建立化合物生物活性和分子场特征之间的关系。对于小分子(<1nm),CoMFA 从分子的拓扑、几何、结构、物理、化学属性出发,寻求结构与功能的关系,取得一定的成功。但是,对于蛋白质等大分子来说,一方面,结构的动态性对功能的意义重大;另一方面,缺乏有效的算法对蛋白质分子(大小一般在 1-100nm 之间)构建具有明确物理意义的数据。2.3 分子拓扑学自 P. G. Mezey 开展分子势能面拓扑性质的研究以来,微分和拓扑已经成为有效地分析分子体系化学结构以及与反应机理之间关系的工具。这些工具通常考虑某一邻域范围内关键点,并有效地抽取局部特征。例如,定义分子势能面为多维空间上的超曲面,在其上定义一个连续的势能函数 U(X),其临界点即指梯度为零的点。由于临界点处蕴涵着某种特征,故须在临界点处对势能函数做二阶微分,计算曲率并分析其类别。基于数据来源的限制,分子势能函数 U(X)多以离散形式表示。拓扑分析的方法也存在一定的局限性。例如,它缺乏定量描述,没有具体的感知和度量标准,需要和其它有效的分析方法相结合来描述分子势能面特性。我们以分子拓扑学中临界点理论为知识背景,在一个规则采样的数据场中考虑分子系统综合作用函数,计算并抽取临界点及判断三维空间中各种满秩临界点情况。3 我们的工作本节依次给出蛋白质分子的三维数据场计算方法、临界点抽取原理及可视化效果,并抽取蛋白质分子势能等值面,最后给出对蛋白质分子的三维数据场的直接体绘制结果。综合这些分析和可视化手段,我们成功地识别出 HIV-1 蛋白酶分子中的特征区域。3.1 蛋白质分子的三维数据场计算蛋白质分子的三维数据场是分布在三维空间的离散场。具体而言,蛋白质分子中各原子或亚结构的动力学特征可以用其哈密尔顿来表示。将蛋白质分子所处空间均匀剖分为网格,并在网格点上定义离散函数,即可将蛋白质分子的三维数据场哈密尔顿写为:( )sfieldijkijkHH= ∑∑∑其中,是描述特定空间格点运动行为的哈密尔顿。可由该离散场出发描述体系的特征。ijkH研究以 HIV-1 蛋白酶(PDB code: 1A30,Louis,J.M., et al, Biochemistry, 2105, 1998)为目标原型。由于实验上发现其可以作为抗 HIV 药物的有效靶点,目前针对该蛋白已有大量的理论和实验研究见诸报道。我们首先采用其 X-ray 衍射构象为出发点,构造同时含有 4691 个水分子的体系。然后在 310K,1atm 条件下采用 Charmm 力场进行 1ns 的平衡计算,以模拟该蛋白在体内液体环境的柔性结构。尔后做 20ps 的采样计算。这里展示的是其中的一个采样,根据以上思想,采用我们在 Gaussian03 基础上,自行设计的线性标度分子三维数据场计算程序 MolField 计算得到的数据场。这里分子三维数据场格点数据是采用 AM1 方法计算得到的量子化学静电势分布表示。这是由于此算法已被大量研究证实可有效地表述有机分子的结构信息。 HIV-1 蛋白酶是由一个小阻抗剂和两条含 99 个氨基酸的多肽链形成的 C2 对称的均二聚体,每个单体中包含有两个模体,都由反平行的 β 折叠组成。图 1(a)为基于二级结构的新卡通显示模型,绿色和黄色分别代表两条多肽链,红色为阻抗剂。图 1(b)为 HIV-1 蛋白酶的球棍显示模型,其中不同颜色的圆球表示
--------------------------------------------------------------------------------
Page 4
韩玮、汪莉 等:面向生物大分子的三维数据场特征分析与可视化初探不同原子,并以该原子的范德华半径作为圆球半径,原子间以无向棍棒相连接。(a)(绿色-HIVA,黄色-HIVB,红色-TP1)(b)(黄-硫,白-氢,红-氧,蓝-氮,青-碳)图 1 HIV-1 蛋白酶的新卡通模型(a)和球棍模型(b)3.2 基于三维数据场表示的蛋白质分子临界点抽取令 X 为蛋白质分子三维离散的规则数据场,(x,y,z)为某格点坐标,U(X)为给定的势能函数。在每一格点上,其梯度为:2( 1, , )( 1, , )( ,1, )( ,1, )( , , )224yxU xy z U xy zU x yz U x yzx y ziigbac+−−+−−=−+( , , 1)( , , 1)2zU x y zU x y zi+ −−+(1)梯度方向代表正交于 U(X)的等值面, , ,xyzi i i 表示三个单位向量。临界点即满足的点。我们取梯度三个分量的绝对值之和作为梯度的模绘制梯度标量场。图 2(a)中灰色亮片为临界点插值所得曲面。( , , ) 0g x y z =根据Morse理论[9],“一个纯量场的二次微分能够表现出此纯量场的局部分布情況,对于电子密度纯量场而言,其二次微分可定义出局部电子密度之累积增加。”对于分子势能函数亦如此。为进一步考虑蛋白质分子三维数据场的特性,我们计算其分子势能函数U(X)的Hessian矩阵:111213212223313233,,,,,,H H HH H HH H H⎡⎤⎢⎥⎢⎥⎢⎥⎣⎦, 其中,为二阶微分ijH或表示为: 212( )(( ))U XU X3λ λ λ∇= ∇ ∇= ++ , 123λ λλ<<(2)123, ,λ λ λ 分别为Hessian矩阵的三个特征值,其正负号的分布决定了临界点性质和分类。计算每个临界点的Hessian矩阵,判断其是否满秩。我们用符号(r,s)表示临界点,其中r指Hessian矩阵非零特征值个数,s指Hessian矩阵特征值正负符号之和,并依据r、s的不同将临界点分类,逐一进行分析[3]。以三维空间为例,共有四种满秩临界点:1. (3,-3)原子核(Nucleic Attractor),其分子势能各个方向来看都是极大值。2. (3,-1)键临界点(Bond Critical Point),是势能面上正马鞍型的鞍点。在任意两个具备键结性质的原子之间,沿键结方向看是极小值,从另外两个垂直键结方向观察是极大值。 3. (3,+1)环临界点(Ring Critical Point),与 BCPs 观察极值效果相反,是势能面上反马鞍型的鞍点。4. (3,+3)笼临界点(Cage Critical Point),其分子势能各个方向来看都是极小值。且由 Poincar é-Hopf 规则,临界点满足方程:n – b + r – s = 1 , 其中,n 为原子核临界点(NAs)个数,b 为键临界点(BCPs)个数,r 为环临界点(RCPs)个数,s 为笼临界点(CCPs)个数。参考分子势能面非退化临界点分类准则,依据(r,s)不同,将满秩点分为四类并全部绘制。如图 2(b)所示,灰色曲面为满秩临界点线性插值所得。
--------------------------------------------------------------------------------
Page 5
6 (a)(b)图 2 (a) 灰色区域为临界点(即满足(1)式)插值形成; (b)灰色区域为非退化临界点(Hessian 矩阵满秩)插值形成)3.3 基于三维数据场表示的蛋白质分子势能面抽取HIV-1 蛋白酶的活性位点位于“通道”底部,采用等值面抽取算法分为以下几步[17]:1. 给定阈值C,将蛋白质三维数据场中每个体元的所有角点与阈值C相比较,根据比较结果,构造该体元的状态表。2. 根据状态表,得出将与等值面有交点的体元边界。3. 通过线性插值方法,求出体元边界与等值面的交点。4. 利用中心差分方法,计算出体元各交点处的法向,再通过线性插值方法,求出三角形各顶点法向。5. 采用不同的阈值可得到一系列等值面根据各三角面片各顶点的坐标值及法向量绘制等值面图像。若取 C=-0.042,结果如图 3(a)所示。(a)(b)图 3 (a)显示 HIV-1 蛋白酶分子势能函数值为-0.042 时的等值面,此时较逼近通道区域; (b)显示平面 z=0.23,并映射颜色定性表示其数值大小,如红色代表该点数值较小,蓝色代表该点数值较大)观察得知,HIV-1蛋白酶分子数据场值的范围约为-0.055~0.019,阈值C取0.000左右时数据场分布较大,且“通道”附近的分子数据场值范围约为-0.048~-0.033。用任意平面切HIV-1蛋白酶,该平面上任意点的颜色值可以定性地表示该点数据场值的大小。如图3(b),用平面z=0.23(坐标归一化后)切HIV-1蛋白酶,做颜色映射并显示所得切平面,这样可以较直观地看到其数据分布及变化规律。3.4 面向蛋白质分子的三维数据场体可视化我们分别采用光线投射和三维纹理映射算法[17]实现了三维数据场的体可视化。其中,光线投射技术是一种较为成熟的以图像空间为序的体绘制方法。其基本思想是对于图像平面上的每一象素,从视点投射出一条穿过该象素的视线,直接利用视线穿过体数据空间时的采样值计算象素的光强。另一种直接体绘制是三维纹
--------------------------------------------------------------------------------
Page 6
韩玮、汪莉 等:面向生物大分子的三维数据场特征分析与可视化初探理映射算法。我们用两种算法实现了等值面绘制(图 4(a))和半透明绘制(图 4(b))。从可视化结果可以发现,图 4(b)的半透明绘制效果对理解蛋白质分子的空间能量分布非常有帮助。我们从中成功地观察到HIV-1 蛋白酶分子中隐藏的水分子排出通道。其生物化学功能还有待进一步的理论和实验工作揭示。(a)等值面绘制(b)半透明绘制图 4 蛋白质分子的三维数据场体绘制效果4 结论与展望本文以 HIV-1 蛋白酶为例,着重于蛋白质三维数量场的特征运算,详细描述数据场计算原理;借助Gaussian 03、Visual C++ 6.0, VMD, POV-Ray 等工具,利用一阶、二阶局部微分算子,得到一系列有可能蕴涵某种生物特性的临界点(如图 2 所示);通过计算各种型值的等值面,成功抽取并可视化具有一定生物活性的通道区域(如图 3(a)所示),并判断出“通道”位置数据场数据的大概范围;采用多种可视化技术观测蛋白质分子的整体结构(如图 4 所示)。为今后进一步分析 HIV-1 蛋白酶功能与结构的关系提供丰富的实验数据和理论依据。蛋白质分子三维数据场的特征抽取和可视化研究是一项有价值且意义甚远的研究。标量场的可视化只是第一步,今后拟实现向量场的可视化,可用多种图形描述手段如颜色、长度、角度、透明度、箭头、锥体、六面体等进行显示。考虑到蛋白质分子时刻处于运动当中,对时变数据场进行可视化能更加有效地揭露分子在完成其功能过程中的演化情况及多分子之间相互作用的机制。拟采用的可视化手段有基于颜色和光学属性的向量场映射、基于质子跟踪的显示方法和基于纹理的向量场动态可视化等。致谢 在此,我们向对本文的工作给予支持和建议的老师和同学们表示感谢。References:[1]Mihael Ankerst, Gabi Kastenmüller, Hans-Peter Kriegel, Thomas Seidl. 3D Shape Histograms for Similarity Search andClassification in Spatial Databases. In: R.H. Güting, D. Papadias, F. Lochovsky (Eds). Proceedings Lecture Notes inComputer Science, Heidelberg: Springer-Verlag GmbH, 1999. 207. [2]Mihael Ankerst, Gabi Kastenmüller, Hans-Peter Kriegel, Thomas Seidl1. Nearest Neighbor Classification in 3D ProteinDatabases Proc. 7th Int. Conf. on Intelligent Systems for Molecular Biology (ISMB‘99). Heidelberg: AAAI Press,1999.Heidelberg, Germany. 34-43, [3]R. F. W. Bader and M. A. Austen, Properties of Atoms In Molecules: Atoms Under Pressure. Journal of Chemical Physics,1997,107: 4271 – 4285[4]Chandrajit L. Bajaj Valerio Pascucci Ariel Shamir Robert J. Holt Arun N. Netravali. Multiresolution Molecular Shapes.TICAM report, 1999, 99-42. [5]Carl Branden, John Tooze, Introduction to Protein Structure. Second Edition, New York: Garland Publishing, Inc,1998.[6]Richard D. Cramer. III, David E. Patterson, and Jeffrey D. Bunce, Comparative Molecular Field Analysis (CoMFA). 1.Effect of Shape on Binding of Steroids to Carrier Proteins. J. Am. Chem. Soc. 1988, 110: 5959-5967
--------------------------------------------------------------------------------
Page 7
6 [7]Daniel A Keim. Efficient Geometry-based Similarity Search of 3D Spatial Databases, Proc. ACM SIGMOD Int. Conf. onManagement of Data (SIGMOD’99), Philadelphia, PA, 1999. 419–430,.[8]H. Kubinyi, Comparative Molecular Field Analysis (CoMFA). In: Chichester, eds. The Encyclopedia of ComputationalChemistry, Vol. 1, John Wiley & Sons Ltd, 1998. 448-460.[9]P. Morse, H. Feshbach, Methods of Theoretical Physics, Part 1, New York: McGrawHill, 1953.[10]E Katchalski-Katzir, I Shariv, M Eisenstein, AA Friesem, C Aflalo, IA Vakser. Molecular surface recognition: determinationof geometric fit between proteins and their ligands by correlation techniques. Proceedings of the National Academy ofSciences,1992, 89:2195-2199[11]Hans-Peter Kriegel, Peer Kroeger, Zahi Mashael, Martin Pfeifle, Marco Poetkey, Thomas Seidlz . Effective SimilaritySearch on Voxelized CAD Objects. In: Proc. 8th Int. Conf. on Database Systems for Advanced Applications (DASFAA’03),Los Alamitos, CA: IEEE Computer Society Press, 2003.[12]Leach A.R., Molecular modelling: principles and applications, second edition. Pearson Education EMA, Jan 2001.[13]Anfinsen, C.B.: The Molecular Basis of Evolution, John Wiley & Sons, Inc., New York, 1959.[14]Kaixian Chen, Hualiang Jiang, Rukang Ji. Computer Aided Druggery Design-Theory、method and application, Shanghai:Shanghai Science and Technology Press,2000[15]Luhua Lai. Protein’s Structure Prediction and Molecular Design, Beijing: Peking University Press, Dec 1993[16]Benning Wang, Liji Chen, Yu Wang. The Method to Research the Chemical Molecule Using the Theory of ElectronicDensity Topology, Physics Bimonthly.2004.26(3),530-536[17]Shengze Tang. Scientific Visualization of 3D Data Set, Beijing: Tsinghua University Press. Jun,1996[18]Houwen Xin. Molecular Topology, Hefei: USTC Press, 1992附中文参考文献:[14]陈凯先,蒋华良,嵇汝运. 计算机辅助药物设计-原理、方法及应用, 上海: 上海科技出版社,2000.[15]来鲁华.蛋白质的结构预测与分子设计, 北京: 北京大学出版社,1993 年 12 月[16]王本宁,陈立基,王瑜. 电子密度拓扑学研究化学分子的方法. 物理双月刊. 2004. 26(3), 530~536.[17]唐泽圣等.三维数据场可视化, 北京: 清华大学出版社. 1996.6[18]辛厚文.分子拓扑学, 合肥: 中国科学技术大学出版社,1992
请您先登陆,再发跟帖!

发现Adblock插件

如要继续浏览
请支持本站 请务必在本站关闭Adblock

关闭Adblock后 请点击

请参考如何关闭Adblock

安装Adblock plus用户请点击浏览器图标
选择“Disable on www.wenxuecity.com”

安装Adblock用户请点击图标
选择“don't run on pages on this domain”