大语言模型和强化学习结合起来就不一样了

来源: 2025-11-07 21:07:32 [旧帖] [给我悄悄话] 本文已被阅读:

最后人工智能的研发还会回到强化学习为核心,Deepseek模型就是蒸馏加强化学习,现在主流的人工智能语言模型都在走这个路线。但这个路线也是有不少难题的,基础还得是朴素的大参数模型,否则没法蒸馏提炼。如果强化学习那么顺,谷歌也不会被OpenAI抢了人工智能的风头。总之商业投入是要追求短期回报的,否则只有家庭富有的人才能整天琢磨艺术(打个比方)。人类在人工智能方向的发展不可阻挡,但不见得是日新月异,天天有惊人的展示。相反,会有很长的严冬才有下一次的春夏