【使用一种奖惩机制训练模型】,所有的模型训练都用的吧?要不然会overfit

回答: 一分钟读懂deepseek静静的顿河022025-01-25 07:42:56

所有跟帖: 

这个就比较technical 了。网上有详细解释的。 -静静的顿河02- 给 静静的顿河02 发送悄悄话 (0 bytes) () 01/25/2025 postreply 08:01:35

我的意思是,大家都用奖惩函数(Lasso/Ridge),你列举的第一条并不是DeepSeek独特的机制啊? -我是谁的谁- 给 我是谁的谁 发送悄悄话 (0 bytes) () 01/25/2025 postreply 08:05:36

找到/发明独特的奖惩函数才是牛人 -我是谁的谁- 给 我是谁的谁 发送悄悄话 (0 bytes) () 01/25/2025 postreply 08:11:17

梁文颂的公司叫做量化同方。而且,deep seek一旦开始 -大宋- 给 大宋 发送悄悄话 大宋 的博客首页 (253 bytes) () 01/25/2025 postreply 08:19:45

有个预感 -大宋- 给 大宋 发送悄悄话 大宋 的博客首页 (264 bytes) () 01/25/2025 postreply 08:03:16

这才是正确的方向 -我是谁的谁- 给 我是谁的谁 发送悄悄话 (0 bytes) () 01/25/2025 postreply 08:04:12

应该是找对了训练模型的更有效方法。当年Google 打败Yahoo肯定不是因为更有钱。 -静静的顿河02- 给 静静的顿河02 发送悄悄话 (0 bytes) () 01/25/2025 postreply 08:11:19

不是都开源了吗?算法是啥你们牛人们不是看看就懂? -专业潜水妈- 给 专业潜水妈 发送悄悄话 (0 bytes) () 01/25/2025 postreply 08:16:47

我要能一看就懂,还有空在这聊天吗?哈哈。 -静静的顿河02- 给 静静的顿河02 发送悄悄话 (0 bytes) () 01/25/2025 postreply 08:20:48

请您先登陆,再发跟帖!