对于DS是不是全新的model，还是抄袭，甚至偷窃, 谈谈我的看法，饭后谈资，以博大家一笑。

来源: 雾蒙蒙雨霏霏于 2025-01-30 15:02:07 [博客] [旧帖] [给我悄悄话] 本文已被阅读：次

先用外行能听懂的话来普及一下基本概念，大概的思路是这样的： DS之前的模型在每一个节点上，先判断出下一步有哪些可能性，然后再逐次对下一步的每一种可能性进行同样的思考和处理，因为每个节点后的可能性都可能是天文数字，所以从深度和广度上看，近乎于无穷无尽。如果按这种思路去探求，对计算机的算力的要求就成了一个天文数字，所以大家都在疯狂的买更强大的芯片，盖更大的数据中心，由此也对电耗产生极大的需求，这种approach实际上是在用 brutal force来解决问题。DS极大地改进了原来的model。DS的model是在许多节点上，不是盲目的把下一步的全部的可能性都罗列出来，逐一去seek，而是做一些逻辑推理和判断，把那些完全不靠谱和不太靠谱的可能性排除，集中精力于那些成功率更大的可能性，这样一来，巨量的下一步的可能性都被筛除了，于是就有了巨大的 performance improvement，成本也就下来了，可以说DS的model是一个smart model。

这个解释听起来似乎很简单，人人都会做，其实实际过程非常复杂。GPU是一个超级并联处理器，通俗的讲就是一个多管齐下的抢时间的机器。在运行过程中，它并不是在每一个节点上，先figure out 下一步的全部可能性，然后再去逐一处理。而是在figour out一种可能性之后，立即就开始处理，同时再figour out下一个可能性，等等，这就是并联处理。这样问题就来了，假定某一个节点后有一亿种可能性，当你拿到第一个可能性时，相比其他的尚未发现的一亿减一种可能性，你怎么去判断这个可能性应该放弃，或者还是值得去进一步deep seek呢？因为无法做出这种判断，DS之前的各公司采取的都是一视同仁的思路，对每一种可能性都不加区别地同等处理。所以对DS的猜疑也就此而生，OpenAI认为要判断一种可能性是否应该放弃，或者还是值得去进一步seek （相比其他的海量在同等节点上的可能性），必须要有数据和逻辑根据，DS必定是从他人那里搞到了某些数据，借此来帮助他们做出判断，filter out 那些无用和低质量的可能性。我个人认为退一万步讲，就算是DS的确是借鉴了某个公司的成果来帮他们做出判断，这也是一个巨大的进步，科技的发展鲜有空穴来风，都是建立在前人已经做出的发明之上的。如果DS能动态的参考其他系统的某些公开的结果，帮他们做出更smart的判断，而不是使用brutal force，每次都去reinvent wheels，这正是科技正常发展的无可非议的苍黄之变。况且DS也不一定肯定是借鉴了其他公司的公开成果来帮助他们推理做出更合理的判断，依据DS的现在网上的performance来判断，DS动态的实时的借鉴他人公开的成果的可能性不大，依我的判断，DS很有能是自我借鉴，前车之覆，后车之鉴，把以前失败的seek的 cases 以某种方式记忆下来，借此来帮助和改进后续的决定，使后续的seek变得更聪明，如果DS的确是这样做的，那DS就变成了一个不仅能够帮你寻找答案，而具有了在这个过程中不断自我纠错，自我完善的能力的自我循环的系统，从理念上讲，这无疑是AI技术上的一个里程碑级的突破。