你是对的,被忽悠了。Markov chain根本不work

来源: 2024-01-16 14:14:09 [旧帖] [给我悄悄话] 本文已被阅读:

LLM的关键是长期记忆. Markov chain 只有非常短期记忆。

简单说一下:

早期deep learning 里用RNN解决sequence to sequence 的问题,比如翻译。 RNN 有点像Markov chain,但是增加了记忆部分. 但是RNN 还是记忆太短,说了后面就忘记前面。后来有lstm,记忆长了一点,但是还不够。再后来搞出来transformers ,这个能有比较长的记忆,能考虑上下文。这是技术突破点。LLM 又在此提高。