整理一下: A, B, C 3个盒子, 其中之一有钱.
你选A, 概率1/3.
主持人知情, 打开空盒B, C盒的概率是2/3
主持人不知情, 打开空盒B, C盒的概率是1/3 (或此时A, C都是1/2)
其深意在于, 主持人知情, 是一个信息, 它会影响概率. 即使我们不知道主持人所见到的, 我们也可以利用这个信息提高C的概率.
但是目前的概率定义没法利用这部分信息, 这不仅导致了此类问题的困惑, 关键是忽视了概率与信息的关系. 传统的概率重视条件概率, 其实条件概率的本质是条件所携的信息对概率的影响.
如果能认识的这一点, 你就能很快地理解马尔科夫性质 ( 或条件独立 ):
对于A的概率P(A)来说, 如果条件C所携带的信息已经包括在条件B里, 那么P(A|B, C) = P(A|B), 此时称A与C在B条件下独立, 其意义就是C的信息对A没有进一步的影响(已经包含在B里了). 这是机器学习里常见的简化手段, 其作用是排除那些我们已经考虑到了的信息.
马尔科夫用一只跳来跳去”没有记忆”的青蛙来解释马尔科夫性质,他是天才,他的解释也只有天才才能懂.但如果你从信息对概率的作用看,就是青蛙下一次要往哪跳,这个概率只取决于它当前的信息, 它以前跳过的信息对它当前的决定没有影响.
如果能找到一个条件X,它包含了所有对A有影响的信息,这个X就是马尔科夫毯,此时A的概率就不会再改变了.