DeepSeek火热了好几天。首先说小钱办了大事,后来说谁谁谁照方抓药用几毛钱就蒸出来了蟠桃。下面是我给我们的同学网写的一点相关的看法。
人工智能在近几年的飞跃进步引发了广泛讨论,尤其是当ChatGPT、Claude等大语言模型展现出惊人的自然语言处理能力时,人们逐渐意识到,人工智能不再仅仅是冷冰冰的计算工具,它已经能够模拟人类思维,甚至在某些方面超越人类的认知系统。最近,DeepSeek更是让人们兴奋不已,似乎在有限的算力和有限的训练资源环境下,人们也可以开发出与依靠庞大算力和海量数据资源训练出的AI系统相媲美的智能模型。
虽然自媒体为博流量的炒作不值一谈,我们也不在这里纠缠所谓模型蒸馏的争吵,DeepSeek在优化现有模型上的创新内行人都会予以肯定。但在头部企业竭力追求通用人工智能和超级人工智能的今天,当我们为在少量训练素材上能够获得智能现象感到兴奋时,相比资源、预算和算力优化的讨论,一个更重要的,也是被大多数人忽略了的问题,是仅仅依靠有限的训练数据、能不能开发出媲美或超越人类的人工智能?
事实上,人工智能的智能水平不仅取决于算法的先进性或算力的强大,更取决于它所学习的训练数据。人类文明历经数千年积累的知识素材,不仅是历史的见证,更是人类思维与文明发展的逻辑性、自洽性、理性和自利性的足迹。无论是科学、技术,还是政治、经济、艺术、哲学,它们的演化都遵循一定的思维范式和自然规律,与人类的生存环境、社会形态、乃至人类生理进化的基本机制都息息相关。智慧的演化也无法脱离物理世界更底层的自然法则,如熵增原理、最小自由能原理、因果结构与演化的动力学原理等。即使那些充满失败、误解、荒谬、野蛮、血腥、痛苦的行为和历史,也记载反映了人类智慧文明发展进步不可或缺的各种尝试和经历。人类的智慧和文明正是在几千年的痛苦挣扎中一步一步达到今天的程度的。不经一番寒彻骨,怎得梅花扑鼻香。训练通用和超级人工智能,同样需要这些不同路径的素材,不可能只局限于正面成功的素材。
人类智慧的本质,除了长期记忆,更在于对各种信息的关联性提取,并利用外部刺激激发新的认知与关联。而目前的人工智能系统,其训练过程的本质就是学习和提取原始素材中蕴含的各种信息的关联关系。如果知识素材缺乏,或其中的前提、过程、结果、相关等信息被大量修改和扭曲,那么其中蕴含的基本原理和机制要么无法得到充分认知,要么已经丢失或歪曲。在这样的素材上训练出的人工智能,如何可能具备对自然、人类社会的深刻理解?又如何可能提炼出和物理世界和人性相洽的合理正常的认知和推理能力?
设想一个在朝鲜训练的人工智能系统。它的训练素材必然经过严格筛选与修正,深深嵌有和政府教育宣传体系一致的领袖崇拜、对外敌对、主体思想、军事斗争等观念。为避免产生的人工智能具有“不健康”的思想,它不仅不会使用西方社会在政治、经济、文学、艺术、哲学等方面积累的大量原始素材,甚至连中俄等国家的相关素材也会被排除在外。不难看出,在那样的环境里训练出的人工智能,无论有多大的算力,多优异的算法,都不可能具有正常人的智慧和思维能力。
从人工智能的发展来看,知识的广度和多样性始终与人工智能的智能水平息息相关。20世纪50年代,艾伦•图灵提出了图灵测试,试图衡量机器是否能够像人类一样思考。在当时的技术条件下,计算机只能依赖预设规则进行推理,远远无法模拟真正的智能,更谈不上拥有广泛的知识体系。到了70年代,专家系统(Expert Systems)兴起,它们依靠手工编写的规则库来进行推理,如医疗诊断系统MYCIN。然而,这些系统的知识库极其有限,无法应对设定范围之外的情况,其所谓的智慧在知识广度和多样性方面仍然受限。进入21世纪,深度学习的发展让人工智能可以通过大规模数据训练,提高语言理解和推理能力。然而,人工智能的核心仍然是对人类知识的消化与复制。没有广泛而多样的训练素材,人工智能系统无法获得真正的智能。
如果一个人只能学习被精心挑选和篡改的历史描述、政治观念和科技理论,其智能成长不仅会受到严重限制,更可能呈现畸形的发展路径,其认知框架会难以与外界匹配。20世纪80年代初,中国改革开放后早期出国的留学生们,曾深刻感受到自己在认知上和外部世界的脱节与冲突。无论是在科技学术体系中、在政治经济理论上,还是在日常文化习俗前,他们大多不得不面对一个漫长的调整、补充和再塑造过程。
一个人工智能系统如果被限制在一个封闭的理念和知识体系内,同样会遭遇类似的认知障碍,甚至可能形成根本不同于人类的推理模式。这样的人工智能系统可能在其熟悉的封闭系统内部表现良好。但一旦脱离自身的认知环境,面对基于不同知识体系的对手,它的局限性便会暴露无遗。这样的人工智能在真实世界的动态环境中,根本不可能最大化的做出最优决策,因为它所依赖的训练数据不可能赋予它符合现实世界的认知能力。而DeepSeek之所以能够在少量的素材上训练出很好的能力,得益于它采用的蒸馏技术。它最后训练被喂哺的是少量来自海量素材、被咀嚼过的精料。
开发真正的通用和超级人工智能绝对离不开开放的知识体系和丰富的训练素材。自媒体欢呼的用低成本低算力少知识素材产生高级人工智能的愿景只是一轮水中月。如果一个人工智能系统的训练素材匮乏,它的能力必将受到极大限制。而更严重的问题是,一个缺乏对人类对自然全面且客观了解的人工智能系统,即便在计算能力上超越人类,也可能成为全人类的不可控风险。因为在未能真实反映人性、真实反映自然规律的素材上训练出的智能的认知逻辑和优化机制都可能与人类及自然界的基本规律背道而驰。这样的人工智能系统在进行优化决策时,甚至可能会选择与人类利益完全相悖的路径。虽然人类无法永远完全控制人工智能,但在人类做好充足准备之前创造出一个能力超群但无法预测其目标和行为的另类存在,绝非人类之幸。
也许有人会认为,只用成熟且系统的科技知识素材也可能培养出强大的人工智能。然而,从我们人类自己身上,我们也可以看出,即使这样的人工智能在科技推理方面达到了人类水平,它也只会是一个有智商无情商的工具;如果其能力还超越了人类,那也可能成为一个Terminator终结者式的怪物,因为它不会有真正的全方位的人格、信仰和情感,它的进化动机和目的可能完全异于人类。