LLM的关键是长期记忆. Markov chain 只有非常短期记忆。
简单说一下:
早期deep learning 里用RNN解决sequence to sequence 的问题,比如翻译。 RNN 有点像Markov chain,但是增加了记忆部分. 但是RNN 还是记忆太短,说了后面就忘记前面。后来有lstm,记忆长了一点,但是还不够。再后来搞出来transformers ,这个能有比较长的记忆,能考虑上下文。这是技术突破点。LLM 又在此提高。
LLM的关键是长期记忆. Markov chain 只有非常短期记忆。
简单说一下:
早期deep learning 里用RNN解决sequence to sequence 的问题,比如翻译。 RNN 有点像Markov chain,但是增加了记忆部分. 但是RNN 还是记忆太短,说了后面就忘记前面。后来有lstm,记忆长了一点,但是还不够。再后来搞出来transformers ,这个能有比较长的记忆,能考虑上下文。这是技术突破点。LLM 又在此提高。
• 详细解释一下?俺去反驳小朋友 -pct- ♂ (0 bytes) () 01/16/2024 postreply 14:15:59
• 看我上面写的 -风景线2- ♀ (0 bytes) () 01/16/2024 postreply 14:26:01
• 可能这就是LLM需要海量参数的原因 -pct- ♂ (0 bytes) () 01/16/2024 postreply 14:28:17
• 大道至简。正是因为需要海量参数,LLM不算真正的AI,只是深度学习、记忆model而已。 -小猪的黄香蕉- ♂ (0 bytes) () 01/16/2024 postreply 14:40:08
• 真敢瞎说。我说的记忆不是你说的意思,是指上下文。 -风景线2- ♀ (155 bytes) () 01/16/2024 postreply 16:16:48