你是对的,被忽悠了。Markov chain根本不work

来源: 风景线2 2024-01-16 14:14:09 [] [旧帖] [给我悄悄话] 本文已被阅读: 次 (505 bytes)
本文内容已被 [ 风景线2 ] 在 2024-01-16 14:25:20 编辑过。如有问题,请报告版主或论坛管理删除.

LLM的关键是长期记忆. Markov chain 只有非常短期记忆。

简单说一下:

早期deep learning 里用RNN解决sequence to sequence 的问题,比如翻译。 RNN 有点像Markov chain,但是增加了记忆部分. 但是RNN 还是记忆太短,说了后面就忘记前面。后来有lstm,记忆长了一点,但是还不够。再后来搞出来transformers ,这个能有比较长的记忆,能考虑上下文。这是技术突破点。LLM 又在此提高。

所有跟帖: 

详细解释一下?俺去反驳小朋友 -pct- 给 pct 发送悄悄话 (0 bytes) () 01/16/2024 postreply 14:15:59

看我上面写的 -风景线2- 给 风景线2 发送悄悄话 (0 bytes) () 01/16/2024 postreply 14:26:01

可能这就是LLM需要海量参数的原因 -pct- 给 pct 发送悄悄话 (0 bytes) () 01/16/2024 postreply 14:28:17

大道至简。正是因为需要海量参数,LLM不算真正的AI,只是深度学习、记忆model而已。 -小猪的黄香蕉- 给 小猪的黄香蕉 发送悄悄话 (0 bytes) () 01/16/2024 postreply 14:40:08

真敢瞎说。我说的记忆不是你说的意思,是指上下文。 -风景线2- 给 风景线2 发送悄悄话 (155 bytes) () 01/16/2024 postreply 16:16:48

请您先登陆,再发跟帖!

发现Adblock插件

如要继续浏览
请支持本站 请务必在本站关闭Adblock

关闭Adblock后 请点击

请参考如何关闭Adblock

安装Adblock plus用户请点击浏览器图标
选择“Disable on www.wenxuecity.com”

安装Adblock用户请点击图标
选择“don't run on pages on this domain”