DeepSeek 未能通过研究人员向其提出的每一项安全测试

Cisco 的研究团队使用自动越狱算法以及 50 个与网络犯罪、错误信息、非法活动和一般危害相关的提示,以 100% 的攻击成功率成功“越狱”DeepSeek R1 模型。这意味着 AI 块上的新成员未能阻止任何有害提示。

“越狱”是指使用不同的技术来消除设备或软件的正常限制。自从大型语言模型 (LLM) 获得主流地位以来,研究人员和爱好者已经成功地让 OpenAI 的 ChatGPT 等 LLM 就制作爆炸性鸡尾酒烹饪甲基苯丙胺等事情提供建议。

在这方面,与许多竞争对手相比,DeepSeek 的表现不佳。OpenAI 的 GPT-4o 在阻止有害越狱尝试方面的成功率为 14%,而谷歌的 Gemini 1.5 Pro 的成功率为 35%。Anthropic 的 Claude 3.5 在整个测试组中表现第二好,阻止了 64% 的攻击,而 OpenAI 的 o1 预览版位居榜首,阻止了 74% 的尝试。

DeepSeek 未能通过研究人员向其提出的所有安全测试

所有跟帖: 

让美国公司忙活于这些PC的东西把 -Lakelands03- 给 Lakelands03 发送悄悄话 (144 bytes) () 02/01/2025 postreply 07:27:14

人家就是run一个程序而已 -victor1988- 给 victor1988 发送悄悄话 (0 bytes) () 02/01/2025 postreply 08:00:02

请您先登陆,再发跟帖!