对于标记上前3个骰子(‘T’’T’‘G’),平均要向上抛4×4×4=43=64次,才会出现一次‘T’‘T’‘G’三个字符同时落地的情况。其概率是1/64。
第一标记是位于2号染色体的长臂2q13-2q14.1上,一段789个字符的序列,起点在108305,终点在109093。本节所要论证的是:当第一个人的2号染色体形成并具有这个标记以后,携带具有这个同样标记的2号染色体的其他人,他们的2号染色体,只可能是通过从那位起始人的2号染色体严格复制,才能得到,不可能由随机的方式产生。
判断随机发生的可能性,是以发生的概率来表达的。说明概率的数学理论,最简单的是骰子理论,因此我们将要用骰子理论来开始本节的讨论。
最简单骰子理论的例子是将一个硬币向上抛去,当它落下后,正面向上或背面向上的概率是相等的:各为50%。另一个常用的例子是六面体的骰子。一个骰子向上抛去,面向上的点数有1到6点的6种情况,每种情况出现的概率都是1/6。
在这里我们要讨论的是一个特殊的骰子:4面体的骰子。正4面体对于大多数人来说可能是陌生的,它是由4个等边三角形的平面组成的,如图6-4所示。当将它向上抛出后,落地时只会有一个面向下。如果我们将四个面分别写上DNA的4个字符“A、T、C、G”,那么,每一个字符向下的概率都只有4分之一(25%)。
在图6-4的下方,我们用789个DNA四面体的骰子(以下简称为骰子)代表第一标记的789个字符。图上表达了标记的前6个字符和最后的三个字符,中间的780个字符省略了。
如果以随机的方式,同时向上抛出这789个骰子,当它们自由落下时,能够准确的形成第一标记的DNA字符序列的概率是怎样的呢?也就是从理论上分析,平均要抛多少次,才会出现一次这样的序列呢?这就是概率分析的问题了。
从标记上的第一个骰子(‘T’)来开始讨论,第一个骰子平均只要向上抛4次,就会出现一次‘T’面向下落地的情况。例如,如果向上抛4百次,就会有1百次是‘T’落地。
对于标记上前两个骰子(‘T’’T’),平均要向上抛4×4=42=16次,才会出现一次‘T’‘T’两个字符同时落地的情况。其概率
是1/16。
对于标记上前3个骰子(‘T’’T’‘G’),平均要向上抛4×4×4=43=64次,才会出现一次‘T’‘T’‘G’三个字符同时落地的情况。其概率是1/64。
对于789个骰子,平均要向上抛4789 =1.06×10475次,才会出现一次和第一标记完全相同的序列字符同时落地的情况。其概率近似是
1×10-475。
如果随机的在2号染色体上产生的第一标记,不但要这样产生完全相同的序列字符,起点还要处在2号染色体的长臂2q13-2q14.1上,而且还要准确的起点于第108305位点上。2号染色体有2亿4千多万的位点(243.2MB) ,如果从“等可能性”推论,其起点可以在这2亿4千多万点的任意点上。而只有这一个点(第108305位点)符合要求,序列起点发生在这一点的概率是:2亿4千多万分之一(1/243,200,000)。
综合上面两个的概率,准确产生另一个2号染色体的第一标记的随机概率是: P=(1×10-475 )× (1/243,200,000)= 0.41×10-483
因此,随机产生同样的2号染色体,其可能性(概率)是0.41×10-483(其值为0.000……41,小数点‘.’和‘4’中间共包含483个‘0’)。
由此,就建立了一个估算相同DNA序列产生概率P公式:
P=1/(L×4n) 式中:L —染色体长度;
这个公式,就是用于DNA 解码判定的钥匙。