1. 使用一种奖惩机制训练模型。所以更有效。
2. 目前逻辑,code能力强,语言能力稍差
3. Performance 强,$2 per M token, 国外大模型$60 per M token.
4. Free. 开源。