Cisco 的研究团队使用自动越狱算法以及 50 个与网络犯罪、错误信息、非法活动和一般危害相关的提示,以 100% 的攻击成功率成功“越狱”DeepSeek R1 模型。这意味着 AI 块上的新成员未能阻止任何有害提示。
“越狱”是指使用不同的技术来消除设备或软件的正常限制。自从大型语言模型 (LLM) 获得主流地位以来,研究人员和爱好者已经成功地让 OpenAI 的 ChatGPT 等 LLM 就制作爆炸性鸡尾酒或烹饪甲基苯丙胺等事情提供建议。
在这方面,与许多竞争对手相比,DeepSeek 的表现不佳。OpenAI 的 GPT-4o 在阻止有害越狱尝试方面的成功率为 14%,而谷歌的 Gemini 1.5 Pro 的成功率为 35%。Anthropic 的 Claude 3.5 在整个测试组中表现第二好,阻止了 64% 的攻击,而 OpenAI 的 o1 预览版位居榜首,阻止了 74% 的尝试。